[voikko] Pieniä parannuksia sinne sun tänne
Harri Pitkänen
hatapitk at iki.fi
Thu Jan 15 20:18:26 EET 2009
Tässä koottuna muutamia asioita, joita olen viime aikoina tehnyt, mutta joista
ei ihmeemmin ole tiedotettu:
- Libvoikkoon ja openoffice.org-voikkoon on lisätty mahdollisuus rajoittaa
tavutusta niin, että tuntemattomia sanoja ei tavuteta automaattisesti. Tästä
voi olla hyötyä esimerkiksi käsiteltäessä asiakirjoja, joissa on paljon
vieraskielisiä sanoja tai tavutukseltaan hankalia yhdyssanoja, joita ei löydy
Voikon sanastosta. Libvoikossa asetus on VOIKKO_OPT_HYPHENATE_UNKNOWN_WORDS,
OpenOffice.orgissa tämän saa käyttöön valitsemalla Työkalut -> Asetukset ->
Kieliasetukset -> Voikko -> Tavuta tuntemattomat tai vieraskieliset sanat.
Tämä siis vain trunkissa tällä hetkellä, openoffice.org-voikon versioon 3.0.1
ei kyseistä asetusta tule.
- Joukahaisen sanastohakuun on vihdoin lisätty mahdollisuus rajata haku
yksittäisen sanaluokan sanoihin.
- Päivitin juuri viime viikolla julkaisemaani sanastoa Illume-näppäimistölle:
http://www.puimula.org/htp/freerunner/Finnish.dic
Uusi sanasto sisältää 104179 sanaa, mikä on suunnilleen yhtä paljon kuin Om
2008.12 mukana tulevassa laajemmassa englanninkielisessä sanastossa.
Sanamäärän kasvattamisen lisäksi mukaan on ainakin teoriassa otettu myös
puhekielisiä sanoja, mutta käytännössä en usko, että näitä Wikipediasta kovin
paljon löytyy. Huom! En ole itse ehtinyt vielä kokeilemaan tätä uutta
sanastoa lainkaan.
Yleisestikään Wikipedia ei ole kovin hyvä lähtökohta tekstiviestisanaston
kokoamiseen, mutta parempaakaan ei taida kovin helposti olla saatavilla.
Voisi olla hauskaa kokeilla malagan integrointia suoraan tuohon
näppäimistöön, jolloin saataisiin koko Voikon tuntema sanasto mukaan, mutta
tätä tuskin ehdin tekemään.
Laitoin nyt myös täydellisen listan kaikista Wikipediasta tunnistetuista
sanoista esiintymismäärineen saataville osoitteeseen
http://www.puimula.org/htp/freerunner/full-wordlist-20081228.gz
Tästä on apua, jos haluaa kokeilla suppeampia tai laajempia sanastoja, ja sitä
voi myös käyttää muissa sovelluksissa, joihin tarvitaan jonkinlainen lista
yleisistä suomenkielisistä sanoista. Finnish.dic on generoitu komennolla
zcat full-wordlist-20081228.gz | awk '{if ($1 > 20) print $2 " " $1}' >
Finnish.dic
Harri
More information about the voikko
mailing list