[voikko] Omorfi/HFST:n ja Voikon vertailua
Harri Pitkänen
hatapitk at iki.fi
Wed Jan 13 19:03:54 EET 2010
On Tuesday 12 January 2010, Flammie Pirinen wrote:
> Ne mitä nyt tällä hetkellä tarvitsee morfologian aikaansaamiseksi on
> vieläkin kotus-luokitus nomineilta ja verbeiltä, jotka kai löytyvätkin
> jo.
Kotus-luokat voidaan ohjelmallisesti päätellä Joukahaisen luokista, eli sitä
kautta kyllä.
> Muut käsin varmistetut lisätiedot joita käytetään ovat nyt noissa
> flägeissä mainittujen lisäksi joillekin adverbeille
> possessiivitaivutusta tai kliittejä mitä sopii käyttää
Adverbit eivät ole vielä Joukahaisessa, mutta ne olisi tarkoitus sinne
siirtää. Ehkäpä jo keväällä ehdin tämän toteuttamaan.
> ja lyhenteille
Lyhenteitä ei ole Joukahaisessa. Nekin voisi periaatteessa siirtää, mutta
niitä on Voikon sanastossa sen verran vähän, etten ole pitänyt asiaa kovin
kiireellisenä.
> ja vierassanoille ääntöasua
Tähän liittyen on SourceForgessa bugi #1829873. Voisin toteuttaa tämän
ominaisuuden piankin jos keksin (tai joku muu suunnittelee), mikä olisi
järkevä muokkauskäyttöliittymä ja esitystapa XML:ssä tälle informaatiolle.
> ja monikkosanoille perusmuotoja ym.
Monikkosanat ovat Joukahaisessa "yksikkömuodossaan".
> Yksi yhdyssanojen, tavutusten ja ehdotusten kannalta mahdollisesti
> hyödyllinen tieto sanoista olisi saada oikeita frekvenssejä, niitä
> voisi ehkä käyttää järjestämään tuloksia jne. Tosin tässäkin pärjää
> melko pitkälle kun vain treenaa morfologian frekvenssit isosta
> aineistosta löytyvien sanamuotojen perusteella.
Jos frekvenssitietoa on jostain saatavissa oikeuksien puolesta
julkaisukelpoisessa ja helposti Joukahaiseen siirrettävässä muodossa, niin
sitä voidaan kyllä lisätä. Nykyinen kymmenportainen yleisyysluokitus on kyllä
käyttökelpoinen moneen tarkoitukseen, mutta se perustuu vain suurpiirteiseen
arviointiin eikä tietoa ole merkitty kuin pienelle osalle sanoista.
> Raapustelin joululomalla testityökaluihin tulostusapuja ja sain kasaan
> html-tulosteen <http://home.gna.org/omorfi/testlogs/omorfi-latest.html>
> josta ehkä jo näkee missä kunnossa omorfi on voikko/suomi-malagaan
> nähden.
Näyttää hienolta. Itse kokeilin pikaisesti Omorfia viime viikolla, silloin en
saanut sitä libvoikossa lainkaan toimimaan. En tiedä missä vika oli. Epäilen,
että flag diacritics -ominaisuuden käyttö Omorfissa sotkee asiaa jotenkin kun
käytetään HFST:n APIa suoraan eikä komentorivityökaluja. En ehtinyt asiaa
enempää selvittää, ehkä vika on ollut jossain muualla.
Harri
More information about the voikko
mailing list