[voikko] HY:n morfologinen jäsennin omorfi

Harri Pitkänen hatapitk at iki.fi
Sat Jan 12 12:14:14 EET 2008


On Friday 11 January 2008, Flammie Pirinen wrote:
> Onko jossain sellainen python-koodi joka lukee joukahaisen dataa
> jostain johonkin datarakenteeseen siten, että sen voisi dumpata SFST:n
> ymmärtämään leksikkoon yksinkertaisella läpikäynnillä? Tein tuon
> XSLT-koodin osin siksi että se oli melko helppo kopioida kotus.xslt:stä.

/trunk/tools/pylib/voikkoutils.py:process_wordlist voisi auttaa. 
Käyttöesimerkki löytyy tiedostosta /trunk/suomimalaga/voikko/generate_lex.py.

> Lex-tiedoston muotohan on tällä hetkellä omorfissa sellainen, että
> siinä on ”sanakirjamuoto <taivutusluokka> <astevaihtelu>?
> <vartalovokaali>? <monikkosana>?” per rivi, missä ? ilmaisee
> ehdollisuutta.

Tuota vartalovokaalia meidän formaatista ei saa, mutta sen voisi kyllä lisätä. 
Sen avulla saisi korjattua myös Voikon bugin #1829873. Muut tiedot ovat jo 
saatavilla.

> En vielä ihan hahmota tuota voikon kokonaisuutta, tarkoitatko että jos
> tuon __apply_gradationin kopioi ja muuttaa palauttamaan kotus-luokat,
> se on käytettävissä jotensakin suoraan joukahaisen sanojen
> kotusluokkien tunnistamiseen?

Ei ihan suoraan, koska sieltä sanan lopusta pitää ensin saada leikattua 
merkkejä pois. Tähän tarvittava koodi on olemassa, mutta se pitäisi 
refaktoroida sellaiseen muotoon, että sitä oikeasti pystyy tässäkin 
tilanteessa käyttämään.

Voisin kyllä itsekin tehdä tämän lähiviikkoina, jos asialla ei ole kiirettä.

>
> > Kuinka täydellinen tuo omorfin taivutusluokkien kuvaus muuten on
> > harvinaisten tai poikkeavien taivutusten osalta?
>
> Omorfi toteuttaa perussanakirjan luokituksen taivutusluokat, onhan
> niissä harvinaisiakin. Muutama tiedetty poikkeus on kanssa, joiden
> toteutus on tavallaan olemassa käsin kirjoitettuna leksikkotiedostossa
> (poikkeukset.lex, käytännössä muistaakseni olla, meri, veri, aika ja
> poika), mutten ole niiden suhteen nähnyt paljoa vaivaa koska teoriassa
> hyvä tavoite olisi että sanalistassa on kaikki tarvittava data tulevia
> kehityksiä varten - mutta sitten taas ei ole tarpeeksi tietoa sanalistan
> tulevaisuudesta.
>
> Onko voikossa jossain päin listaa tms. noista harvinaisista ja
> poikkeavista tapauksista? Itselleni ei nyt tule mieleen muita kuin nuo
> muutamat, eikä testatessakaan ole tullut vastaan suurempia.

Sen lisäksi mitä Hannu sanoi, voi vilkaista läpi Suomi-malagan sanastosta 
(hakemisto vocabulary) tiedostot erikoissanat.lex, taivutustäydennykset.lex, 
erikoiset.lex ja poikkeavat.lex. Niissä on kyllä paljon muutakin kuin 
erikoisia taivutuksia. Lisäksi Joukahaisesta Suomi-malagaan siirrettäessä 
erityisen käsittelyn saavat 
sanat "koko", "ruoko", "poppi", "punkki", "lampi", "lahti", "poika" 
ja "mies".

Harri



More information about the voikko mailing list