[voikko] Omorfi/HFST:n ja Voikon vertailua

Harri Pitkänen hatapitk at iki.fi
Wed Nov 11 19:44:32 EET 2009


Olen nyt ehtinyt jonkin verran perehtymään Omorfi/HFST:n ja Voikon välisiin 
eroihin oikoluvun näkökulmasta. Testailin molempia lähinnä generoimalla 
erilaisia merkkijonoja ja tutkimalla niitä, jotka ainoastaan toinen 
tutkittavista ohjelmista hyväksyi. Menetelmän avulla Voikosta löytyi useita 
bugeja, jotka on nyt korjattu.

Omorfi/HFST:stä löytyi myös bugeja ja puutteita. Vertailun kannalta 
oleellisimmat puutteet liittyivät siihen, että sanastojen sisällön ja 
yhdyssanasääntöjen eroavuuksien takia eroja oli niin paljon, että 
kiinnostavien virheiden löytäminen oli vaikeaa. Muitakin bugeja ja puutteita 
sattui silmääni. Mm. sanat "*tuliinen", "*maaaho", "*luultavempi", 
"*hevonensitoja", "*satasata", "*emmekin", "*kissaaan", "*maleksimaaan", 
"*reiillä" ja "*piirrys" olivat Omorfin mielestä oikein, mutta Voikon mielestä 
väärin. Yleisesti ottaen Omorfi näyttää hyväksyvän useampia merkkijonoja kuin 
Voikko, kun käydään läpi järjestelmällisesti esimerkiksi kaikki kuusimerkkiset 
merkkijonot.

Voikon automaattitestit voi myös ajaa HFST:n kanssa. Oikolukutesteistä läpi 
meni 509/719. Näissäkin monet virheistä liittyivät isojen kirjainten 
käsittelyyn, sillä libvoikon HFST-komponentti ei niitä vielä tue. Muissa 
testityypeissä tulokset olivat samasta syystä odotetusti heikommat.

Omorfi näyttäisi yhdistävän kolme sanastolähdettä, eli Kotuksen sanalistan, 
Joukahaisen ja Suomen kielen käänteissanakirjan. En tiennyt, että näistä 
jälkimmäinen olisi käytettävissä vapaalla lisenssillä. Onkohan tässä 
epähuomiossa julkaistu jokin sisäiseen tutkimuskäyttöön tarkoitettu 
yhdistelmä, vai onko tuo käänteissanakirjan lisenssi tosiaan julkiseen 
levitykseen sopiva?

Kaiken kaikkiaan varsin lupaavalta tuo HFST vaikuttaa. Toki vielä nykyisellään 
pidän Voikon Malaga-pohjaista sanastoa ainakin oikolukukäytössä parempana, 
mutta erot olivat loppujen lopuksi niin pieniä, että niitä oli vielä 
kuusimerkkisilläkin sanoilla mahdollista lukea läpi suhteellisen 
järjestelmällisesti.

Harri



More information about the voikko mailing list