[voikko] Suomenkielinen sanasto Illume-virtuaalinäppäimistöön
Harri Pitkänen
hatapitk at iki.fi
Tue Jan 6 21:49:16 EET 2009
Generoin äsken kokeellisen suomenkielisen sanaston
Illume-virtuaalinäppäimistöön, joka on yksi monista Freerunner-puhelimeen
saatavilla olevista näppäimistöistä. Hyvin alustava testiversio sanastosta
löytyy osoitteesta
http://www.puimula.org/htp/freerunner/Finnish.dic
Asennus tapahtuu kopioimalla tiedosto
hakemistoon /usr/lib/enlightenment/modules/illume/dicts/ jonka jälkeen
näppäimistön kielivalikkoon pitäisi tulla näkyviin Finnish.
Sanasto on muodostettu suomenkielisen Wikipedian sanoista ottamalla mukaan ne,
jotka Voikko hyväksyy. Lisäksi isot kirjaimet on toistaiseksi muutettu
pieniksi ja tiettyjä välimerkkejä sisältävät sanat poistettu. Lopuksi
sanastosta on karsittu pois kaikki ne sanat, jotka esiintyivät Wikipediassa
korkeintaan 500 kertaa. Esiintymien määrä on mukana sanastossa, Illume
käyttää tätä lukua hyväkseen järjestäessään sanat yleisimmästä
harvinaisimpaan.
Vastaavaan englanninkieliseen versioon verrattuna sanasto on suppea. Koska
tällainen sanojen luetteleminen ei ole kovin toimiva menetelmä suomen
kielessä, lopputulos ei ole erityisen hyvä, mutta näyttäisi kuitenkin
toimivan tavanomaisilla sanoilla. Ä- ja ö-kirjaimet eivät vielä toimi, koska
en ole ehtinyt selvittää, miten nämä merkit edes saa tuohon näppäimistöön
näkyviin :) Tarvitaan ilmeisesti oma näppäimistöasettelu, tämän tutkimista
täytyy vielä joskus jatkaa. Lisäksi olisi katsottava, miten isot kirjaimet
toimivat tuon näppäimistön kanssa, pitäisi tehdä vähän laajempi sanasto jne.
Jos jotakuta kiinnostaa tehdä kokeiluja, niin komento, jolla tuo sanasto on
generoitu, on seuraavanlainen:
bzcat fiwiki-20081228-pages-articles.xml.bz2 | voikkogc --tokenize |
grep '^W' | sed -e 's/W: "\(.*\)"/\1/' | grep -v '^[[:digit:]]' |
grep -v '[.:-]' | voikkospell -c6 | grep '^C' | sed -e 's/C: \(.*\)/\1/' |
tr '[:upper:]' '[:lower:]' | LANG=C sort | uniq -c | awk '{if ($1 > 500)
print $2 " " $1}' > Finnish.dic
Kannattaa varautua siihen, että tuon suoritus kestää noin pari tuntia koneen
nopeudesta riippuen. Eli oikeasti kannattaa katsella tuota aika kriittisesti
ja optimoida hiukan ennen kuin ajaa komentoa uudestaan.
Harri
More information about the voikko
mailing list