[voikko] HY:n morfologinen jäsennin omorfi
Harri Pitkänen
hatapitk at iki.fi
Sat Jan 12 12:14:14 EET 2008
On Friday 11 January 2008, Flammie Pirinen wrote:
> Onko jossain sellainen python-koodi joka lukee joukahaisen dataa
> jostain johonkin datarakenteeseen siten, että sen voisi dumpata SFST:n
> ymmärtämään leksikkoon yksinkertaisella läpikäynnillä? Tein tuon
> XSLT-koodin osin siksi että se oli melko helppo kopioida kotus.xslt:stä.
/trunk/tools/pylib/voikkoutils.py:process_wordlist voisi auttaa.
Käyttöesimerkki löytyy tiedostosta /trunk/suomimalaga/voikko/generate_lex.py.
> Lex-tiedoston muotohan on tällä hetkellä omorfissa sellainen, että
> siinä on ”sanakirjamuoto <taivutusluokka> <astevaihtelu>?
> <vartalovokaali>? <monikkosana>?” per rivi, missä ? ilmaisee
> ehdollisuutta.
Tuota vartalovokaalia meidän formaatista ei saa, mutta sen voisi kyllä lisätä.
Sen avulla saisi korjattua myös Voikon bugin #1829873. Muut tiedot ovat jo
saatavilla.
> En vielä ihan hahmota tuota voikon kokonaisuutta, tarkoitatko että jos
> tuon __apply_gradationin kopioi ja muuttaa palauttamaan kotus-luokat,
> se on käytettävissä jotensakin suoraan joukahaisen sanojen
> kotusluokkien tunnistamiseen?
Ei ihan suoraan, koska sieltä sanan lopusta pitää ensin saada leikattua
merkkejä pois. Tähän tarvittava koodi on olemassa, mutta se pitäisi
refaktoroida sellaiseen muotoon, että sitä oikeasti pystyy tässäkin
tilanteessa käyttämään.
Voisin kyllä itsekin tehdä tämän lähiviikkoina, jos asialla ei ole kiirettä.
>
> > Kuinka täydellinen tuo omorfin taivutusluokkien kuvaus muuten on
> > harvinaisten tai poikkeavien taivutusten osalta?
>
> Omorfi toteuttaa perussanakirjan luokituksen taivutusluokat, onhan
> niissä harvinaisiakin. Muutama tiedetty poikkeus on kanssa, joiden
> toteutus on tavallaan olemassa käsin kirjoitettuna leksikkotiedostossa
> (poikkeukset.lex, käytännössä muistaakseni olla, meri, veri, aika ja
> poika), mutten ole niiden suhteen nähnyt paljoa vaivaa koska teoriassa
> hyvä tavoite olisi että sanalistassa on kaikki tarvittava data tulevia
> kehityksiä varten - mutta sitten taas ei ole tarpeeksi tietoa sanalistan
> tulevaisuudesta.
>
> Onko voikossa jossain päin listaa tms. noista harvinaisista ja
> poikkeavista tapauksista? Itselleni ei nyt tule mieleen muita kuin nuo
> muutamat, eikä testatessakaan ole tullut vastaan suurempia.
Sen lisäksi mitä Hannu sanoi, voi vilkaista läpi Suomi-malagan sanastosta
(hakemisto vocabulary) tiedostot erikoissanat.lex, taivutustäydennykset.lex,
erikoiset.lex ja poikkeavat.lex. Niissä on kyllä paljon muutakin kuin
erikoisia taivutuksia. Lisäksi Joukahaisesta Suomi-malagaan siirrettäessä
erityisen käsittelyn saavat
sanat "koko", "ruoko", "poppi", "punkki", "lampi", "lahti", "poika"
ja "mies".
Harri
More information about the voikko
mailing list