[voikko] HY:n morfologinen jäsennin omorfi

Harri Pitkänen hatapitk at iki.fi
Sun Jan 13 12:46:54 EET 2008


On Sunday 13 January 2008, Flammie Pirinen wrote:
> > > En vielä ihan hahmota tuota voikon kokonaisuutta, tarkoitatko että
> > > jos tuon __apply_gradationin kopioi ja muuttaa palauttamaan
> > > kotus-luokat, se on käytettävissä jotensakin suoraan joukahaisen
> > > sanojen kotusluokkien tunnistamiseen?
> >
> > Ei ihan suoraan, koska sieltä sanan lopusta pitää ensin saada
> > leikattua merkkejä pois. Tähän tarvittava koodi on olemassa, mutta se
> > pitäisi refaktoroida sellaiseen muotoon, että sitä oikeasti pystyy
> > tässäkin tilanteessa käyttämään.
> >
> > Voisin kyllä itsekin tehdä tämän lähiviikkoina, jos asialla ei ole
> > kiirettä.
>
> Toki, niin se onnistuu varmasti kivuttomammin ja helpommin kuin että
> itse yrittäisin seurata koodia ja kokeilla.

Hyvä, teen tämän sitten jossain vaiheessa.

> > Sen lisäksi mitä Hannu sanoi, voi vilkaista läpi Suomi-malagan
> > sanastosta (hakemisto vocabulary) tiedostot erikoissanat.lex,
> > taivutustäydennykset.lex, erikoiset.lex ja poikkeavat.lex. Niissä on
> > kyllä paljon muutakin kuin erikoisia taivutuksia. Lisäksi
> > Joukahaisesta Suomi-malagaan siirrettäessä erityisen käsittelyn
> > saavat sanat "koko", "ruoko", "poppi", "punkki", "lampi", "lahti",
> > "poika" ja "mies".
>
> Paljon näkyy olevan adverbeja, partikkeleja ja muita joita en ole edes
> toteuttanut vielä. Hyvin monet poikkeavat.lexissä olevista sanoista
> kuuluvat kotus-sanalistan säännöllisten taivutusluokkien alle, kuten
> hiki, ien ja itää, ehkä ne on kirjattu ei_ysj-lipun takia sinne? Myös
> sellaisia verbejä kuin selitä, riiata, kangeta ja parata on merkitty,
> vaikka nekin tuntuvat taipuvan säännöllisesti? Tietysti ne kuuluvat
> hyvin pieniin luokkin sanakirjaluokituksissa sinänsä. Mutta enimmäkseen
> uskoisin että omorfi jo selviytyy noissa esiintyvistä nomineista ja
> verbeistä.

Lipuilla ei pitäisi olla vaikutusta, koska ne ovat käytettävissä myös 
Joukahaisessa. Ongelma on pääasiassa siinä, että Suomi-malagassa kaikki 
taivutusluokka-astevaihteluluokkayhdistelmät vaativat oman taivutusluokkansa. 
Samoin ne tapaukset, joissa astevaihtelussa k katoaa kokonaan ja ne, joissa 
sen paikalle tarvitaan heittomerkki, ovat erillisissä luokissa. Joukahaisessa 
(kuten varmasti omorfissakin) on käytössä yleispätevämpi systeemi, mutta 
muunnettaessa sanoja Joukahaisesta Suomi-malagaan tämä ongelma on 
huomioitava. Koska Suomi-malagassa luokkia on tästä syystä todella paljon, ei 
niitä joissa on ainoastaan yksi tai kaksi sanaa ole aina ehditty edes 
analysoimaan.

Tietysti tämä homma pitää tehdä loppuun, jos SFST-pohjaisesta Joukahaisen 
sanalistaan perustuvasta toteutuksesta halutaan kattava. Katsoin sanan "hiki" 
ja huomasin, että se (kuten myös "piki") olivat helposti siirrettävissä 
Joukahaiseen, ja tein jo kyseisen siirron. Katson läpi myös nuo muut 
mainitsemasi sanat. Kerron, jos niistä löytyy jotain aidosti poikkeavaa.

Harri



More information about the voikko mailing list