[voikko-devel] openoffice.org-voikko 1.2 ja libvoikko 1.2
Harri Pitkänen
hatapitk at cc.jyu.fi
Thu Nov 2 17:05:38 EET 2006
openoffice.org-voikko 1.2 ja libvoikko 1.2 on julkaistu.
openoffice.org-voikko 1.2 on uudelleennimetty Oo2-voikko 1.1, johon on tehty
ainoastaan pieniä muutoksia (lähinnä dokumentaatioon). Tuo julkaistu versio
on käytännössä sama, joka nyt on Debianissa versionumerolla 1.1.
libvoikko 1.2 sisältää versioon 1.1 verrattuna muutaman bugikorjauksen ja
joissakin sovelluksissa hyödyllisen uuden funktion voikko_init_with_path.
Lisäksi tämä versio tarkistaa käytettävän Suomi-malagan yhteensopivuuden
ohjelman suoritusaikana. configure-valitsin --with-malaga-path on poistettu
tarpeettomana.
Vanhaan tapaan huomatkaa, että nämä (samoin kuin aikaisemmin julkaistu
tmispell-voikko 0.6.1) ovat kandidaatteja julkaistavaksi Voikon versiossa
1.2, mutta sitä ennen ne vaativat vielä testaamista. Älkää siis tulkitko
näitä vielä vakaiksi versioiksi. Erityisesti libvoikko 1.2 on yhteensopiva
ainoastaan Suomi-malagan SVN-version kanssa.
Suomi-malagan versio 0.7.3 ja sitten lopulta Voikko 1.2 voidaan nähdäkseni
julkaista kunhan olemme ensin varmistaneet, että nykyiset kehitysversiot ovat
kaikissa suhteissa vähintään yhtä hyviä tai parempia kuin Voikko 1.1.
Testaamisen avuksi olen vähän parannellut anagrammivoikkoa:
http://svn.sourceforge.net/viewvc/*checkout*/hunspell-fi/trunk/tools/bin/anagrammivoikko
Tämä versio anagrammivoikosta vaatii pythonin enchant-moduulin, joka ainakin
Debianissa löytyy paketista python-enchant. Käyttöesimerkkejä:
Voidaan luetella anagrammeja useammalle kuin yhdelle sanalle kerrallaan:
$ anagrammivoikko lampussapa pöytä
Using language fi_FI with Enchant Voikko Provider
lampussapa
lappumassa
lappussama
maapluspas
massalappu
palmussapa
plusmaapas
pluspasmaa
plussamapa
pulmassapa
samapluspa
pötyä
pöytä
työpä
yötpä
Number of permutations tested: 151320
Time used (seconds): 15.08
Permutations per second: 10034.4
-f -valitsimella voidaan käyttää sanalistaa tiedostosta. Alla on käytetty tätä
hyväksi vertailtaessa Suomi-malagan versiota 0.7.2 nykyiseen SVN-versioon:
$ cat testisanat.txt
lihanuija
lapamato
giljotiini
$ anagrammivoikko -f testisanat.txt > anagrammit-0.7.2.txt
Using language fi_FI with Enchant Voikko Provider
Number of permutations tested: 248641
Time used (seconds): 26.5599
Permutations per second: 9361.48
$ anagrammivoikko -f testisanat.txt > anagrammit-svn.txt
Using language fi_FI with Enchant Voikko Provider
Number of permutations tested: 248641
Time used (seconds): 22.6099
Permutations per second: 10996.9
$ diff -U0 anagrammit-0.7.2.txt anagrammit-svn.txt
--- anagrammit-0.7.2.txt 2006-11-02 16:40:38.000000000 +0200
+++ anagrammit-svn.txt 2006-11-02 16:41:28.000000000 +0200
@@ -8 +7,0 @@
-hajauliin
@@ -47 +45,0 @@
-lapamoat
@@ -57,2 +54,0 @@
-moaltapa
-moapalat
@@ -62 +57,0 @@
-palamoat
Johtopäätökset: SVN-versio on nopeampi ja tunnistaa vähemmän virheellisiä tai
järjettömiä sanoja kuin versio 0.7.2.
Anagrammivoikkoa voi käyttää myös muilla kielillä. Englannissa pitkille
sanoille ei näytä käytännössä löytyvän anagrammeja, ja nähdään että aspell on
noin neljä kertaa nopeampi kuin Voikko:
$ anagrammivoikko -l en mousetrap
Using language en with Enchant Aspell Provider
mousetrap
Number of permutations tested: 362880
Time used (seconds): 9.10999
Permutations per second: 39833.1
Päivitän hunspell-fi.org deb-paketit libvoikolle lähiaikoina.
Harri
More information about the devel
mailing list