[voikko] Tilastokeskuksen sanastoa Joukahaiseen
Harri Pitkänen
hatapitk at iki.fi
Wed Nov 22 00:17:22 EET 2017
Hei!
Tilastokeskus hyödyntää Voikkoa verkkopalveluidensa toteutuksessa, ja he
ovat myös koonneet listaa sanoista, joita Voikko ei vielä tunnista. Olen
saanut heiltä tämän listan ja luvan julkaista sen Voikon sanaston
GPL-lisenssillä. Lista on luettavissa Google Docsin kautta:
https://docs.google.com/spreadsheets/d/1WcXZM_TE7LNffKnMAzHCPPF6x7fkxlhoM7a32SvxvII/edit#gid=680567508
Muutaman sanan olen jo ehtinyt Joukahaiseen viedä, mutta paljon vielä
puuttuu. Osa on hyvinkin Tilastokeskuksen toimintaan liittyviä sanoja,
joiden lisääminen mihinkään ylläpitämistämme sanastoista olisi hyvin
kyseenalaista. Tästä syystä päädyin nyt kokeiluluontoisesti lisäämään
Joukahaiseen käyttöalalipun "organisaatio: stat.fi". Tällä lipulla
olevat sanat ovat siis Tilastokeskuksen omaan käyttöönsä lisäämiä. Niitä
ei automaattisesti oteta mukaan mihinkään virallisista sanastoistamme,
mutta sanat ovat GPL-lisenssillä käytettävissä, mikäli niille joku näkee
käyttöä. Tällä lipulla merkittyjä sanoja voi myös siirtää muihin
sanastoihin tai perussanastoon, mikäli se vaikuttaa sopivalta.
Meillä ei ennestään ole ollut mitään toimintamallia tällaisille
"yksityisille" sanastoille, joten tätä voi nyt pitää jonkinlaisena uuden
toimintamallin pilotointina. Tässä vaiheessa tämä EI tarkoita sitä, että
kuka tahansa voisi tällaisen oman yksityissanastonsa saada, enkä vielä
ole varma, haluanko tätä mallia ylipäätään kovin laajalti ottaa
käyttöön. Tilastokeskuksen osaaminen ja panostus tähän kuitenkin
vakuuttivat minut siitä, että nyt tätä kannattaa kokeilla.
Yksi olennainen kysymys on vielä ratkaisematta: halutaanko nämä
Tilastokeskuksen yksityiseen sanastoon merkityt sanat mukaan siihen
XML-muotoiseen sanastoon, jota levitämme voikko-fi-lähdekoodipaketissa?
Lähtökohtaisesti ne sinne päätyisivät, mutta halutessamme voisimme ne
myös rajata pois ennen seuraavan version julkaisua. Sanat olisivat silti
Joukahaisesta saatavilla, ja voisimme jopa tehdä niiden lataamisesta
helppoa. Nimittäin meillä on jo "make update-vocabulary", joka hakee
edellisyönä generoidun sanaston Joukahaisesta. Sen rinnalle voisi lisätä
komennon "make download-extended-vocabulary", joka toimisi samoin, mutta
ottaisi mukaan myös organisaatiokohtaiset sanastot.
Harri
More information about the voikko
mailing list