[voikko] HY:n morfologinen jäsennin omorfi

Harri Pitkänen hatapitk at iki.fi
Fri Dec 28 21:28:46 EET 2007


On Thursday 27 December 2007 18:10, Harri Pitkänen wrote:
> Jatkan testailua...

Joitakin huomioita ja kysymyksiä:

- Käännösvaihe kestää aika paljon kauemmin kuin Suomi-malagan kanssa. Tämä 
tietysti on ihan ymmärrettävää, koska SFST tekee kaikenlaista optimointia 
noille transduktoreille, malaga ei tee juuri mitään vastaavaa. Eli jos joku 
ensimmäistä kertaa kokeilee tätä, kannattaa make-komennon antamisen jälkeen 
varautua odottamaan tovi.

- Nopeus on analysointivaiheessa vähintään kymmenkertainen Suomi-malagaan 
verrattuna. Eli tuo edellä mainittu optimointi kyllä kannattaa.

- Jouduin poistamaan liitepartikkelit ja vertailumuodot, jotta sanojen 
generointi komennolla "fst-generate -u omorfi.sfsta" ei tuottaisi 
kohtuuttoman paljon (oikoluvun kannalta) virheellisiä muotoja. Nämä varmaan 
ovat tunnettuja asioita, ja ehkä osittain tarkoituksellisia. Mutta tällä 
tavoin mukautettu transduktori oli joka tapauksessa mukavampi käyttää, kun 
kokeilin syöttää generoituja sanoja voikkospellin läpi.

- Muokkauksia tehdessäni havaitsin, että kun eräitä sfst-tiedostoja oli 
editoitu, make ei ymmärtänyt, että jotain pitäisi generoida uudelleen. Ehkä 
sain jotain rikottua liikaa, tai sitten Makefilessä ei ole kerrottu kaikkia 
tarpeellisia tiedostojen välisiä riippuvuuksia.

- Omorfi on ERITTÄIN hyvä testiväline Voikon kehittämistä varten. Sen avulla 
löysin taas uuden bugin Voikon omistusliitteiden käsittelyssä: Voikko 
hyväksyi virheellisen muodon *maleksimaaan. Tämä sama bugi on myös Omorfissa, 
tai ainakin siinä minun hakkeroimassa versiossani :)

- Omorfista löytyi myös muita tapauksia, joissa generoiduissa sanoissa on 
kolme samaa kirjainta peräkkäin. Ehkä näistäkin osa johtuu tekemistäni 
muutoksista, mutta osa voi olla myös alkuperäisessä versiossa (jota en nyt 
ehdi kääntämään uusiksi että voisin asian varmistaa). Esimerkiksi
  fst-generate -u omorfi.sfsta | grep ttt
tuottaa sanan *mitttelevien (mittelevä<N10><pl><gen>).

- Mitä on suunnitelmissa Omorfin jatkokehityksen suhteen? Onko esimerkiksi 
yhdyssanojen käsittelylle tarkoitus jossain vaiheessa tehdä jotain? Voikon 
kannalta tämä on varmaan se mielenkiintoisin kysymys. Meillähän on jo pari 
vuotta ollut TODO-listalla mahdollinen malagan korvaaminen SFST:llä, mutta en 
ole uskaltanut aloittaa tätä projektia kun en oikein tiedä, pystyykö Voikon 
yhdyssanasääntöjä järkevästi sen avulla toteuttamaan. Olisi toki kätevää, jos 
voisimme käyttää Omorfia suoraan Voikossa (teknisesti malagan korvaaminen 
SFST:llä on aika helppo homma), vaikka sanastona luultavasti käyttäisimmekin 
nykyistä Voikon sanastoa, emme Kotuksen listaa.

- Mihin Omorfista löytyvät bugit kannattaa raportoida? Gna-projektin bug 
trackeriin, KitWikiin, tänne postituslistalle? Onko projekti siinä vaiheessa, 
että ulkopuolisten tekemiä patcheja hyväksytään mukaan? Katsoin sivut
  http://forums.csc.fi/kitwiki/pilot/view/KitWiki/OMorFiRoadmap
  http://forums.csc.fi/kitwiki/pilot/view/KitWiki/OMorFiPhases
  http://forums.csc.fi/kitwiki/pilot/view/KitWiki/OMorFiFreedom
  http://forums.csc.fi/kitwiki/pilot/view/KitWiki/OMorFiCommunity
mutta noista ei vielä selvinnyt, että miten tämän projektin hallinta on 
konkreettisesti ajateltu järjestää. Ilmeisesti vaiheissa niin, että ensin 
kehitetään HY:n sisällä projektimuotoisesti, ja sitten kun on saatu tuote 
riittävän hyvään kuntoon, siirrytään perinteiseen avoimeen kehitykseen?

Harri



More information about the voikko mailing list