[voikko] Omorfi/HFST:n ja Voikon vertailua

Flammie Pirinen flammie at iki.fi
Wed Dec 2 13:27:59 EET 2009


2009-11-11, Harri Pitkänen sanoi:

> Omorfi/HFST:stä löytyi myös bugeja ja puutteita. Vertailun kannalta 
> oleellisimmat puutteet liittyivät siihen, että sanastojen sisällön ja 
> yhdyssanasääntöjen eroavuuksien takia eroja oli niin paljon, että 
> kiinnostavien virheiden löytäminen oli vaikeaa. Muitakin bugeja ja
> puutteita sattui silmääni. Mm. sanat "*tuliinen", "*maaaho",
> "*luultavempi", "*hevonensitoja", "*satasata", "*emmekin",
> "*kissaaan", "*maleksimaaan", "*reiillä" ja "*piirrys" olivat Omorfin
> mielestä oikein, mutta Voikon mielestä väärin. Yleisesti ottaen
> Omorfi näyttää hyväksyvän useampia merkkijonoja kuin Voikko, kun
> käydään läpi järjestelmällisesti esimerkiksi kaikki kuusimerkkiset
> merkkijonot.

Kaiken kaikkiaan kasasin nyt nämä bugit omorfiin (pl. 'piirrys',
pitäisi kai päättää onko s-kliitti raakattava kokonaan pois
oikolukuaineistosta vai jätetäänkö sen käsittely ns. kieliopin
tarkastimen huoleksi, jolloin tämä imperatiiviluenta ei substantiivin
paikalle yleensä käy) ja sellaisen yhdyssananmuodostuksen että sitä voi
laajentaa nimenomaan kaikenlaisilla flägeillä, voisin seuraavaksi pitää
hyvänä projektina että omorfin sanastonhallinnan saisi jätettyä
joukahaiseen sillä noiden csv-listojen ylläpito on turhaa aikaa vievää.
Ilmeisesti myös joukahaisessa on tehty aika paljon näitä nykysuomen
sanalistaan tarvittavia valintoja kun siellä on merkitsemättä murteet ja
puhekielisyydet. 

> Voikon automaattitestit voi myös ajaa HFST:n kanssa.
> Oikolukutesteistä läpi meni 509/719. Näissäkin monet virheistä
> liittyivät isojen kirjainten käsittelyyn, sillä libvoikon
> HFST-komponentti ei niitä vielä tue. Muissa testityypeissä tulokset
> olivat samasta syystä odotetusti heikommat.

Olisikohan automaattitestejä jossain kätevässä muodossa esim.
liitettäväksi omorfin testeihin? Nyt siellä on vain kotuksen
taivutustaulukko ja lisäksi ajan vain wikipedian siistityn dumpin läpi,
josta ei selvästikään riitä selvittämään onko regressioita. Testien
formaatti yhdessä tekemistämme testityökaluista on sellainen että
kahdella rivinvaihdolla erotetaan kaksinauhaisen automaatin inputnauha
ja sen outputit (tai osajoukko niistä), eli esim. juuri:

kaivosaukko
kai-vo-sauk-ko
kai-vos-auk-ko

tavutusautomaattia varten. Olen myös yrittänyt kasata vastaavaa
oikoluvun ehdotuskomponentille keräämällä satunnaisista aineistoista
väärinkirjoituksia, mutta enimmäkseenhän ne ovat edit distance 2:n
päässä ilman mitään.

-- 
Flammie, computer scientist bachelor, linguist master, free software
Finnish localiser, and more! <http://www.iki.fi/flammie/>



More information about the voikko mailing list