[voikko] Omorfi/HFST:n ja Voikon vertailua
Harri Pitkänen
hatapitk at iki.fi
Wed Nov 11 19:44:32 EET 2009
Olen nyt ehtinyt jonkin verran perehtymään Omorfi/HFST:n ja Voikon välisiin
eroihin oikoluvun näkökulmasta. Testailin molempia lähinnä generoimalla
erilaisia merkkijonoja ja tutkimalla niitä, jotka ainoastaan toinen
tutkittavista ohjelmista hyväksyi. Menetelmän avulla Voikosta löytyi useita
bugeja, jotka on nyt korjattu.
Omorfi/HFST:stä löytyi myös bugeja ja puutteita. Vertailun kannalta
oleellisimmat puutteet liittyivät siihen, että sanastojen sisällön ja
yhdyssanasääntöjen eroavuuksien takia eroja oli niin paljon, että
kiinnostavien virheiden löytäminen oli vaikeaa. Muitakin bugeja ja puutteita
sattui silmääni. Mm. sanat "*tuliinen", "*maaaho", "*luultavempi",
"*hevonensitoja", "*satasata", "*emmekin", "*kissaaan", "*maleksimaaan",
"*reiillä" ja "*piirrys" olivat Omorfin mielestä oikein, mutta Voikon mielestä
väärin. Yleisesti ottaen Omorfi näyttää hyväksyvän useampia merkkijonoja kuin
Voikko, kun käydään läpi järjestelmällisesti esimerkiksi kaikki kuusimerkkiset
merkkijonot.
Voikon automaattitestit voi myös ajaa HFST:n kanssa. Oikolukutesteistä läpi
meni 509/719. Näissäkin monet virheistä liittyivät isojen kirjainten
käsittelyyn, sillä libvoikon HFST-komponentti ei niitä vielä tue. Muissa
testityypeissä tulokset olivat samasta syystä odotetusti heikommat.
Omorfi näyttäisi yhdistävän kolme sanastolähdettä, eli Kotuksen sanalistan,
Joukahaisen ja Suomen kielen käänteissanakirjan. En tiennyt, että näistä
jälkimmäinen olisi käytettävissä vapaalla lisenssillä. Onkohan tässä
epähuomiossa julkaistu jokin sisäiseen tutkimuskäyttöön tarkoitettu
yhdistelmä, vai onko tuo käänteissanakirjan lisenssi tosiaan julkiseen
levitykseen sopiva?
Kaiken kaikkiaan varsin lupaavalta tuo HFST vaikuttaa. Toki vielä nykyisellään
pidän Voikon Malaga-pohjaista sanastoa ainakin oikolukukäytössä parempana,
mutta erot olivat loppujen lopuksi niin pieniä, että niitä oli vielä
kuusimerkkisilläkin sanoilla mahdollista lukea läpi suhteellisen
järjestelmällisesti.
Harri
More information about the voikko
mailing list