[voikko] Suomenkielinen sanasto Illume-virtuaalinäppäimistöön

Harri Pitkänen hatapitk at iki.fi
Tue Jan 6 21:49:16 EET 2009


Generoin äsken kokeellisen suomenkielisen sanaston 
Illume-virtuaalinäppäimistöön, joka on yksi monista Freerunner-puhelimeen 
saatavilla olevista näppäimistöistä. Hyvin alustava testiversio sanastosta 
löytyy osoitteesta
  http://www.puimula.org/htp/freerunner/Finnish.dic

Asennus tapahtuu kopioimalla tiedosto 
hakemistoon /usr/lib/enlightenment/modules/illume/dicts/ jonka jälkeen 
näppäimistön kielivalikkoon pitäisi tulla näkyviin Finnish.

Sanasto on muodostettu suomenkielisen Wikipedian sanoista ottamalla mukaan ne, 
jotka Voikko hyväksyy. Lisäksi isot kirjaimet on toistaiseksi muutettu 
pieniksi ja tiettyjä välimerkkejä sisältävät sanat poistettu. Lopuksi 
sanastosta on karsittu pois kaikki ne sanat, jotka esiintyivät Wikipediassa 
korkeintaan 500 kertaa. Esiintymien määrä on mukana sanastossa, Illume 
käyttää tätä lukua hyväkseen järjestäessään sanat yleisimmästä 
harvinaisimpaan.

Vastaavaan englanninkieliseen versioon verrattuna sanasto on suppea. Koska 
tällainen sanojen luetteleminen ei ole kovin toimiva menetelmä suomen 
kielessä, lopputulos ei ole erityisen hyvä, mutta näyttäisi kuitenkin 
toimivan tavanomaisilla sanoilla. Ä- ja ö-kirjaimet eivät vielä toimi, koska 
en ole ehtinyt selvittää, miten nämä merkit edes saa tuohon näppäimistöön 
näkyviin :) Tarvitaan ilmeisesti oma näppäimistöasettelu, tämän tutkimista 
täytyy vielä joskus jatkaa. Lisäksi olisi katsottava, miten isot kirjaimet 
toimivat tuon näppäimistön kanssa, pitäisi tehdä vähän laajempi sanasto jne. 
Jos jotakuta kiinnostaa tehdä kokeiluja, niin komento, jolla tuo sanasto on 
generoitu, on seuraavanlainen:

bzcat fiwiki-20081228-pages-articles.xml.bz2 | voikkogc --tokenize | 
grep '^W' | sed -e 's/W: "\(.*\)"/\1/' | grep -v '^[[:digit:]]' | 
grep -v '[.:-]' | voikkospell -c6 | grep '^C' | sed -e 's/C: \(.*\)/\1/' | 
tr '[:upper:]' '[:lower:]' | LANG=C sort | uniq -c | awk '{if ($1 > 500) 
print $2 " " $1}' > Finnish.dic

Kannattaa varautua siihen, että tuon suoritus kestää noin pari tuntia koneen 
nopeudesta riippuen. Eli oikeasti kannattaa katsella tuota aika kriittisesti 
ja optimoida hiukan ennen kuin ajaa komentoa uudestaan.

Harri



More information about the voikko mailing list