[voikko-devel] openoffice.org-voikko 1.2 ja libvoikko 1.2

Harri Pitkänen hatapitk at cc.jyu.fi
Thu Nov 2 17:05:38 EET 2006


openoffice.org-voikko 1.2 ja libvoikko 1.2 on julkaistu.

openoffice.org-voikko 1.2 on uudelleennimetty Oo2-voikko 1.1, johon on tehty 
ainoastaan pieniä muutoksia (lähinnä dokumentaatioon). Tuo julkaistu versio 
on käytännössä sama, joka nyt on Debianissa versionumerolla 1.1.

libvoikko 1.2 sisältää versioon 1.1 verrattuna muutaman bugikorjauksen ja 
joissakin sovelluksissa hyödyllisen uuden funktion voikko_init_with_path. 
Lisäksi tämä versio tarkistaa käytettävän Suomi-malagan yhteensopivuuden 
ohjelman suoritusaikana. configure-valitsin --with-malaga-path on poistettu 
tarpeettomana.

Vanhaan tapaan huomatkaa, että nämä (samoin kuin aikaisemmin julkaistu 
tmispell-voikko 0.6.1) ovat kandidaatteja julkaistavaksi Voikon versiossa 
1.2, mutta sitä ennen ne vaativat vielä testaamista. Älkää siis tulkitko 
näitä vielä vakaiksi versioiksi. Erityisesti libvoikko 1.2 on yhteensopiva 
ainoastaan Suomi-malagan SVN-version kanssa.


Suomi-malagan versio 0.7.3 ja sitten lopulta Voikko 1.2 voidaan nähdäkseni 
julkaista kunhan olemme ensin varmistaneet, että nykyiset kehitysversiot ovat 
kaikissa suhteissa vähintään yhtä hyviä tai parempia kuin Voikko 1.1. 
Testaamisen avuksi olen vähän parannellut anagrammivoikkoa:

http://svn.sourceforge.net/viewvc/*checkout*/hunspell-fi/trunk/tools/bin/anagrammivoikko

Tämä versio anagrammivoikosta vaatii pythonin enchant-moduulin, joka ainakin 
Debianissa löytyy paketista python-enchant. Käyttöesimerkkejä:

Voidaan luetella anagrammeja useammalle kuin yhdelle sanalle kerrallaan:
$ anagrammivoikko lampussapa pöytä
Using language fi_FI with Enchant Voikko Provider
lampussapa
lappumassa
lappussama
maapluspas
massalappu
palmussapa
plusmaapas
pluspasmaa
plussamapa
pulmassapa
samapluspa
pötyä
pöytä
työpä
yötpä
Number of permutations tested: 151320
Time used (seconds): 15.08
Permutations per second: 10034.4

-f -valitsimella voidaan käyttää sanalistaa tiedostosta. Alla on käytetty tätä 
hyväksi vertailtaessa Suomi-malagan versiota 0.7.2 nykyiseen SVN-versioon:
$ cat testisanat.txt
lihanuija
lapamato
giljotiini
$ anagrammivoikko -f testisanat.txt > anagrammit-0.7.2.txt
Using language fi_FI with Enchant Voikko Provider
Number of permutations tested: 248641
Time used (seconds): 26.5599
Permutations per second: 9361.48
$ anagrammivoikko -f testisanat.txt > anagrammit-svn.txt
Using language fi_FI with Enchant Voikko Provider
Number of permutations tested: 248641
Time used (seconds): 22.6099
Permutations per second: 10996.9
$ diff -U0 anagrammit-0.7.2.txt anagrammit-svn.txt
--- anagrammit-0.7.2.txt        2006-11-02 16:40:38.000000000 +0200
+++ anagrammit-svn.txt  2006-11-02 16:41:28.000000000 +0200
@@ -8 +7,0 @@
-hajauliin
@@ -47 +45,0 @@
-lapamoat
@@ -57,2 +54,0 @@
-moaltapa
-moapalat
@@ -62 +57,0 @@
-palamoat

Johtopäätökset: SVN-versio on nopeampi ja tunnistaa vähemmän virheellisiä tai 
järjettömiä sanoja kuin versio 0.7.2.

Anagrammivoikkoa voi käyttää myös muilla kielillä. Englannissa pitkille 
sanoille ei näytä käytännössä löytyvän anagrammeja, ja nähdään että aspell on 
noin neljä kertaa nopeampi kuin Voikko:
$ anagrammivoikko -l en mousetrap
Using language en with Enchant Aspell Provider
mousetrap
Number of permutations tested: 362880
Time used (seconds): 9.10999
Permutations per second: 39833.1


Päivitän hunspell-fi.org deb-paketit libvoikolle lähiaikoina.

Harri



More information about the devel mailing list