[voikko] Omorfi/HFST:n ja Voikon vertailua

Flammie Pirinen flammie at iki.fi
Wed Nov 11 20:51:28 EET 2009


2009-11-11, Harri Pitkänen sanoi:

> Omorfi/HFST:stä löytyi myös bugeja ja puutteita. Vertailun kannalta 
> oleellisimmat puutteet liittyivät siihen, että sanastojen sisällön ja 
> yhdyssanasääntöjen eroavuuksien takia eroja oli niin paljon, että 
> kiinnostavien virheiden löytäminen oli vaikeaa.

Varmasti aika paljon pitää tehdä analysaattorin sorvaamiseksi oikolukua
varten, tästäkin tietysti kaikki havainnot on syytä kerätä jotenkin,
vaikka suuri osa korjauksista lienee melko ilmeisiä
(yhdyssanamuodostusta ja johto-oppia rajoitettava rajusti, jne.)

> Muitakin bugeja ja
> puutteita sattui silmääni. Mm. sanat "*tuliinen", "*maaaho",
> "*luultavempi", "*hevonensitoja", "*satasata", "*emmekin",
> "*kissaaan", "*maleksimaaan", "*reiillä" ja "*piirrys" olivat Omorfin
> mielestä oikein, mutta Voikon mielestä väärin. Yleisesti ottaen
> Omorfi näyttää hyväksyvän useampia merkkijonoja kuin Voikko, kun
> käydään läpi järjestelmällisesti esimerkiksi kaikki kuusimerkkiset
> merkkijonot.

Ainakin piirrys ja muut yksikön toisen imperatiivin s-kliitilliset
muodot kannattaneekin poistaa oikoluvusta ja lisätä vain
tapauskohtaisesti oikeasti käytetyt. Muut ovat enemmän vähemmän
laiskuudesta johtuvia bugeja tai huomaamatta palanneita regressioita,
jotka selvinnevät säännöstöä viilailemalla taas.

> Voikon automaattitestit voi myös ajaa HFST:n kanssa.
> Oikolukutesteistä läpi meni 509/719. Näissäkin monet virheistä
> liittyivät isojen kirjainten käsittelyyn, sillä libvoikon
> HFST-komponentti ei niitä vielä tue. Muissa testityypeissä tulokset
> olivat samasta syystä odotetusti heikommat.

Isot kirjaimet saanee myös transduktorien puolesta toteutettua
erilaisilla tavoilla tarpeen mukaan.

> Omorfi näyttäisi yhdistävän kolme sanastolähdettä, eli Kotuksen
> sanalistan, Joukahaisen ja Suomen kielen käänteissanakirjan. En
> tiennyt, että näistä jälkimmäinen olisi käytettävissä vapaalla
> lisenssillä. Onkohan tässä epähuomiossa julkaistu jokin sisäiseen
> tutkimuskäyttöön tarkoitettu yhdistelmä, vai onko tuo
> käänteissanakirjan lisenssi tosiaan julkiseen levitykseen sopiva?

Jäin siihen käsitykseen että sitä olisi mahdollista käyttää syystä tai
toisesta kun se minulle annettiin. En varsinaisesti ymmärrä tarpeeksi
näistä asioista että osaisin selvittää tarkemmin, saati että jaksaisin.

> Kaiken kaikkiaan varsin lupaavalta tuo HFST vaikuttaa. Toki vielä
> nykyisellään pidän Voikon Malaga-pohjaista sanastoa ainakin
> oikolukukäytössä parempana, mutta erot olivat loppujen lopuksi niin
> pieniä, että niitä oli vielä kuusimerkkisilläkin sanoilla mahdollista
> lukea läpi suhteellisen järjestelmällisesti.

Uskoisin myös ettei ihan hirvittävästi työtä vaadi saada omorfista
käyttökelpoinen myös oikoluvun käyttöön.

-- 
Flammie, computer scientist bachelor, linguist master, free software
Finnish localiser, and more! <http://www.iki.fi/flammie/>



More information about the voikko mailing list