[voikko] HY:n morfologinen jäsennin omorfi

Fri Jan 4 21:18:29 EET 2008

2007-12-30, Harri Pitkänen sanoi:

> On Sunday 30 December 2007 11:01, Flammie Pirinen wrote:

> > [...]
> Olen ajatellut rakentaa sellaisen testaussysteemin, jossa tuotetaan
> Omorfista sanoja fst-generatella, muutetaan niitä jonkin fuzzerin
> (vaikkapa zzuf, http://sam.zoy.org/zzuf/) avulla ja syötetään nämä
> sotketut merkkijonot takaisin Omorfiin ja voikkospelliin. Sitten
> katsotaan, löytyykö merkkijonoja jotka toinen hyväksyy ja toinen
> hylkää. Nämä voivat paljastaa bugeja jommastakummasta morfologiasta.

Kuulostaa hyvältä idealta, viime aikoina olen jo käyttänyt jonkin
verran aikaa siihen että kasaan regressiotestiä sitä varten, että
omorfin tulevassa kehitykessä voisi aina ajaa make test onnistuneesti
läpi ennen julkaisuja. Nyt svn:ssä on sellainen python-skripti, joka
tarkistaa että oikeat sanat tunnistuvat oikein (skriptit/omorfi-test.py
ja regressiosanat.csv). Ehkä tälle pohjalle saa helposti myös toisen
automatisoidun testin nopeasti.

> > Millaisia voikon yhdyssanasäännöt ovat? Olen ymmärtänyt että aika
> > pitkälti käsisäädöllä toteutettuja?
> 
> Perusperiaatteet on kirjattu Joukahaisen ohjeisiin:
>   http://joukahainen.lokalisointi.org/docs/yhdyssanat.html
> Tuo dokumentti on valitettavasti varsin suurpiirteinen, ja todellinen
> toteutus Suomi-malagan Voikko-versiossa on monimutkaisempi (tai
> bugisempi, miten asian haluaa nähdä). Lisäksi sanakohtaiset
> poikkeukset ovat mahdollisia. Aikaisemmin (syyskuulle asti) niitä oli
> jopa morfologian kuvauksessa mukana, mutta nykyään kaikki poikkeavaa
> käyttäytymistä ohjaavat attribuutit ovat sanastossa (Joukahaisessa
> tai Suomi-malagan lex-tiedostoissa).
> 
> Poikkeukset tuskin ovat ongelma SFST:lle, mutta tuo säännöstö
> itsessään voi olla. Kukaan ei nimittäin vielä ole todistanut Voikon
> hyväksymien sanojen muodostavan säännöllistä kieltä. Ja vaikka kieli
> olisikin säännöllinen (tai muokattavissa säännölliseksi
> kohtuullisella vaivalla) niin ei ole ihan selvää, että vastaava
> SFST-toteutus pysyisi järkevän kokoisena, tai että SFST kykenisi
> rakentamaan kyseisen transduktorin järkevässä ajassa.

Tuolla sivulla oleva kuvaus vaikuttaisi minusta helpolta, siis esim
niin että otetaan yhdyssanat yligeneroiden konkatenoimalla ja nuo
taulukossa olevat säännöt filtteröidään leikkauksella tai
kompositiolla. Nykyiseen versioon se ensimmäinen ongelma minkä näen on
tietty että kotus-sanalistassa ei ole sellaista tietoa kuin
adjektiivisuus. Ajattelin että ensimmäinen sääntö olisi vaikka sitten

($sanat$ || .*<sg><nom>.*) | ($sanat$ || .*<gen>.*)) ($sanat$).

jne.

> > Tällä hetkellä kun omorfi-palikkaan ei kukaa
> > muu ole koskenut eikä kai lähiaikoina koskemassa niin projektin
> > hallinta luonnistuu miten päin tahansa, luultavasti yliopistolla
> > olisivat tyytyväisiä jos kitwikiä käytettäisiin mahdollisimman
> > paljon, mutta toisaalta taas itse olen tottunut hyvin
> > bugihallintasovellusten kanssa pelaamiseen.
> 
> Minäkin mieluummin raportoisin bugeja tuonne gna-projektiin kuin
> wikiin. 

Kyllä se on helpommin hallittavissa varmasti kaikkien kannalta. 

> Oikeuksien luovuttaminen on myös sellainen asia, johon
> suhtaudun melko varautuneesti. 

Mm, itse yritän välttää byrokratia- ja lakijuttuja niin paljon kuin
mahdollista ja luotan siihen, että kaiken lisenssit pysyvät avoimena
tulevaa käyttöä ja tutkimusta varten.

Joka tapauksessa nyt gna.orgin repositoryssäkin on branches/csc jossa
on vain niitä muutoksia joihin oikeudet on luovutettu ja trunk joka on
vapaa, sanan kaikissa järkevissä merkityksissä.

-- 
Flammie, computer scientist-linguist B.Sc., Gentoo translator, and a 
freak. <http://www.iki.fi/flammie/>