[voikko] Pieniä parannuksia sinne sun tänne

Harri Pitkänen hatapitk at iki.fi
Thu Jan 15 20:18:26 EET 2009


Tässä koottuna muutamia asioita, joita olen viime aikoina tehnyt, mutta joista 
ei ihmeemmin ole tiedotettu:

- Libvoikkoon ja openoffice.org-voikkoon on lisätty mahdollisuus rajoittaa 
tavutusta niin, että tuntemattomia sanoja ei tavuteta automaattisesti. Tästä 
voi olla hyötyä esimerkiksi käsiteltäessä asiakirjoja, joissa on paljon 
vieraskielisiä sanoja tai tavutukseltaan hankalia yhdyssanoja, joita ei löydy 
Voikon sanastosta. Libvoikossa asetus on VOIKKO_OPT_HYPHENATE_UNKNOWN_WORDS, 
OpenOffice.orgissa tämän saa käyttöön valitsemalla Työkalut -> Asetukset -> 
Kieliasetukset -> Voikko -> Tavuta tuntemattomat tai vieraskieliset sanat. 
Tämä siis vain trunkissa tällä hetkellä, openoffice.org-voikon versioon 3.0.1 
ei kyseistä asetusta tule.

- Joukahaisen sanastohakuun on vihdoin lisätty mahdollisuus rajata haku 
yksittäisen sanaluokan sanoihin.

- Päivitin juuri viime viikolla julkaisemaani sanastoa Illume-näppäimistölle:
  http://www.puimula.org/htp/freerunner/Finnish.dic
Uusi sanasto sisältää 104179 sanaa, mikä on suunnilleen yhtä paljon kuin Om 
2008.12 mukana tulevassa laajemmassa englanninkielisessä sanastossa. 
Sanamäärän kasvattamisen lisäksi mukaan on ainakin teoriassa otettu myös 
puhekielisiä sanoja, mutta käytännössä en usko, että näitä Wikipediasta kovin 
paljon löytyy. Huom! En ole itse ehtinyt vielä kokeilemaan tätä uutta 
sanastoa lainkaan.

Yleisestikään Wikipedia ei ole kovin hyvä lähtökohta tekstiviestisanaston 
kokoamiseen, mutta parempaakaan ei taida kovin helposti olla saatavilla. 
Voisi olla hauskaa kokeilla malagan integrointia suoraan tuohon 
näppäimistöön, jolloin saataisiin koko Voikon tuntema sanasto mukaan, mutta 
tätä tuskin ehdin tekemään.

Laitoin nyt myös täydellisen listan kaikista Wikipediasta tunnistetuista 
sanoista esiintymismäärineen saataville osoitteeseen
  http://www.puimula.org/htp/freerunner/full-wordlist-20081228.gz
Tästä on apua, jos haluaa kokeilla suppeampia tai laajempia sanastoja, ja sitä 
voi myös käyttää muissa sovelluksissa, joihin tarvitaan jonkinlainen lista 
yleisistä suomenkielisistä sanoista. Finnish.dic on generoitu komennolla
  zcat full-wordlist-20081228.gz | awk '{if ($1 > 20) print $2 " " $1}' >
  Finnish.dic

Harri



More information about the voikko mailing list