[voikko] Tilastokeskuksen sanastoa Joukahaiseen

Harri Pitkänen hatapitk at iki.fi
Wed Nov 22 00:17:22 EET 2017


Hei!

Tilastokeskus hyödyntää Voikkoa verkkopalveluidensa toteutuksessa, ja he 
ovat myös koonneet listaa sanoista, joita Voikko ei vielä tunnista. Olen 
saanut heiltä tämän listan ja luvan julkaista sen Voikon sanaston 
GPL-lisenssillä. Lista on luettavissa Google Docsin kautta:

   
https://docs.google.com/spreadsheets/d/1WcXZM_TE7LNffKnMAzHCPPF6x7fkxlhoM7a32SvxvII/edit#gid=680567508

Muutaman sanan olen jo ehtinyt Joukahaiseen viedä, mutta paljon vielä 
puuttuu. Osa on hyvinkin Tilastokeskuksen toimintaan liittyviä sanoja, 
joiden lisääminen mihinkään ylläpitämistämme sanastoista olisi hyvin 
kyseenalaista. Tästä syystä päädyin nyt kokeiluluontoisesti lisäämään 
Joukahaiseen käyttöalalipun "organisaatio: stat.fi". Tällä lipulla 
olevat sanat ovat siis Tilastokeskuksen omaan käyttöönsä lisäämiä. Niitä 
ei automaattisesti oteta mukaan mihinkään virallisista sanastoistamme, 
mutta sanat ovat GPL-lisenssillä käytettävissä, mikäli niille joku näkee 
käyttöä. Tällä lipulla merkittyjä sanoja voi myös siirtää muihin 
sanastoihin tai perussanastoon, mikäli se vaikuttaa sopivalta.

Meillä ei ennestään ole ollut mitään toimintamallia tällaisille 
"yksityisille" sanastoille, joten tätä voi nyt pitää jonkinlaisena uuden 
toimintamallin pilotointina. Tässä vaiheessa tämä EI tarkoita sitä, että 
kuka tahansa voisi tällaisen oman yksityissanastonsa saada, enkä vielä 
ole varma, haluanko tätä mallia ylipäätään kovin laajalti ottaa 
käyttöön. Tilastokeskuksen osaaminen ja panostus tähän kuitenkin 
vakuuttivat minut siitä, että nyt tätä kannattaa kokeilla.

Yksi olennainen kysymys on vielä ratkaisematta: halutaanko nämä 
Tilastokeskuksen yksityiseen sanastoon merkityt sanat mukaan siihen 
XML-muotoiseen sanastoon, jota levitämme voikko-fi-lähdekoodipaketissa? 
Lähtökohtaisesti ne sinne päätyisivät, mutta halutessamme voisimme ne 
myös rajata pois ennen seuraavan version julkaisua. Sanat olisivat silti 
Joukahaisesta saatavilla, ja voisimme jopa tehdä niiden lataamisesta 
helppoa. Nimittäin meillä on jo "make update-vocabulary", joka hakee 
edellisyönä generoidun sanaston Joukahaisesta. Sen rinnalle voisi lisätä 
komennon "make download-extended-vocabulary", joka toimisi samoin, mutta 
ottaisi mukaan myös organisaatiokohtaiset sanastot.

Harri


More information about the voikko mailing list