[voikko] Omorfi/HFST:n ja Voikon vertailua

Harri Pitkänen hatapitk at iki.fi
Wed Jan 13 19:03:54 EET 2010


On Tuesday 12 January 2010, Flammie Pirinen wrote:
> Ne mitä nyt tällä hetkellä tarvitsee morfologian aikaansaamiseksi on
> vieläkin kotus-luokitus nomineilta ja verbeiltä, jotka kai löytyvätkin
> jo.

Kotus-luokat voidaan ohjelmallisesti päätellä Joukahaisen luokista, eli sitä 
kautta kyllä.

> Muut käsin varmistetut lisätiedot joita käytetään ovat nyt noissa
> flägeissä mainittujen lisäksi joillekin adverbeille
> possessiivitaivutusta tai kliittejä mitä sopii käyttää

Adverbit eivät ole vielä Joukahaisessa, mutta ne olisi tarkoitus sinne 
siirtää. Ehkäpä jo keväällä ehdin tämän toteuttamaan.

> ja lyhenteille

Lyhenteitä ei ole Joukahaisessa. Nekin voisi periaatteessa siirtää, mutta 
niitä on Voikon sanastossa sen verran vähän, etten ole pitänyt asiaa kovin 
kiireellisenä.

> ja vierassanoille ääntöasua

Tähän liittyen on SourceForgessa bugi #1829873. Voisin toteuttaa tämän 
ominaisuuden piankin jos keksin (tai joku muu suunnittelee), mikä olisi 
järkevä muokkauskäyttöliittymä ja esitystapa XML:ssä tälle informaatiolle.

> ja monikkosanoille perusmuotoja ym.

Monikkosanat ovat Joukahaisessa "yksikkömuodossaan".

> Yksi yhdyssanojen, tavutusten ja ehdotusten kannalta mahdollisesti
> hyödyllinen tieto sanoista olisi saada oikeita frekvenssejä, niitä
> voisi ehkä käyttää järjestämään tuloksia jne. Tosin tässäkin pärjää
> melko pitkälle kun vain treenaa morfologian frekvenssit isosta
> aineistosta löytyvien sanamuotojen perusteella.

Jos frekvenssitietoa on jostain saatavissa oikeuksien puolesta 
julkaisukelpoisessa ja helposti Joukahaiseen siirrettävässä muodossa, niin 
sitä voidaan kyllä lisätä. Nykyinen kymmenportainen yleisyysluokitus on kyllä 
käyttökelpoinen moneen tarkoitukseen, mutta se perustuu vain suurpiirteiseen 
arviointiin eikä tietoa ole merkitty kuin pienelle osalle sanoista.

> Raapustelin joululomalla testityökaluihin tulostusapuja ja sain kasaan
> html-tulosteen <http://home.gna.org/omorfi/testlogs/omorfi-latest.html>
> josta ehkä jo näkee missä kunnossa omorfi on voikko/suomi-malagaan
> nähden.

Näyttää hienolta. Itse kokeilin pikaisesti Omorfia viime viikolla, silloin en 
saanut sitä libvoikossa lainkaan toimimaan. En tiedä missä vika oli. Epäilen, 
että flag diacritics -ominaisuuden käyttö Omorfissa sotkee asiaa jotenkin kun 
käytetään HFST:n APIa suoraan eikä komentorivityökaluja. En ehtinyt asiaa 
enempää selvittää, ehkä vika on ollut jossain muualla.

Harri



More information about the voikko mailing list