[voikko] HY:n morfologinen jäsennin omorfi

Flammie Pirinen flammie at iki.fi
Sun Jan 13 11:39:52 EET 2008


2008-01-12, Harri Pitkänen sanoi:

> On Friday 11 January 2008, Flammie Pirinen wrote:
> > Lex-tiedoston muotohan on tällä hetkellä omorfissa sellainen, että
> > siinä on ”sanakirjamuoto <taivutusluokka> <astevaihtelu>?
> > <vartalovokaali>? <monikkosana>?” per rivi, missä ? ilmaisee
> > ehdollisuutta.
> 
> Tuota vartalovokaalia meidän formaatista ei saa, mutta sen voisi
> kyllä lisätä. Sen avulla saisi korjattua myös Voikon bugin #1829873.
> Muut tiedot ovat jo saatavilla.

Kotus-sanalistastakin se puuttui, joten tein sitä varten alkujaan
xslt-tiedostoon lyhyen koodinpätkän, joka osaa käsitellä muutamat
luokan 22 sanat joissa sitä tarvitaan. Muissa kuin luokkien 21 ja 22
sanoissa (so. vierassanoissa) vartalovokaali on kuitenkin luettavissa
itse sanasta. Tuossa bugissa puhutaan illatiivin tunnuksesta, mutta se
usein päättää myös vokaaliharmonian, jonka tosin sallitaan myös silloin
seuraavan visuaalista vokaalisointua.

> > En vielä ihan hahmota tuota voikon kokonaisuutta, tarkoitatko että
> > jos tuon __apply_gradationin kopioi ja muuttaa palauttamaan
> > kotus-luokat, se on käytettävissä jotensakin suoraan joukahaisen
> > sanojen kotusluokkien tunnistamiseen?
> 
> Ei ihan suoraan, koska sieltä sanan lopusta pitää ensin saada
> leikattua merkkejä pois. Tähän tarvittava koodi on olemassa, mutta se
> pitäisi refaktoroida sellaiseen muotoon, että sitä oikeasti pystyy
> tässäkin tilanteessa käyttämään.
> 
> Voisin kyllä itsekin tehdä tämän lähiviikkoina, jos asialla ei ole
> kiirettä.

Toki, niin se onnistuu varmasti kivuttomammin ja helpommin kuin että
itse yrittäisin seurata koodia ja kokeilla. 

> Sen lisäksi mitä Hannu sanoi, voi vilkaista läpi Suomi-malagan
> sanastosta (hakemisto vocabulary) tiedostot erikoissanat.lex,
> taivutustäydennykset.lex, erikoiset.lex ja poikkeavat.lex. Niissä on
> kyllä paljon muutakin kuin erikoisia taivutuksia. Lisäksi
> Joukahaisesta Suomi-malagaan siirrettäessä erityisen käsittelyn
> saavat sanat "koko", "ruoko", "poppi", "punkki", "lampi", "lahti",
> "poika" ja "mies".

Paljon näkyy olevan adverbeja, partikkeleja ja muita joita en ole edes
toteuttanut vielä. Hyvin monet poikkeavat.lexissä olevista sanoista
kuuluvat kotus-sanalistan säännöllisten taivutusluokkien alle, kuten
hiki, ien ja itää, ehkä ne on kirjattu ei_ysj-lipun takia sinne? Myös
sellaisia verbejä kuin selitä, riiata, kangeta ja parata on merkitty,
vaikka nekin tuntuvat taipuvan säännöllisesti? Tietysti ne kuuluvat
hyvin pieniin luokkin sanakirjaluokituksissa sinänsä. Mutta enimmäkseen
uskoisin että omorfi jo selviytyy noissa esiintyvistä nomineista ja
verbeistä.

-- 
Flammie, computer scientist-linguist B.Sc., Gentoo translator, and a 
freak. <http://www.iki.fi/flammie/>



More information about the voikko mailing list