[voikko] HY:n morfologinen jäsennin omorfi
Harri Pitkänen
hatapitk at iki.fi
Fri Dec 28 21:28:46 EET 2007
On Thursday 27 December 2007 18:10, Harri Pitkänen wrote:
> Jatkan testailua...
Joitakin huomioita ja kysymyksiä:
- Käännösvaihe kestää aika paljon kauemmin kuin Suomi-malagan kanssa. Tämä
tietysti on ihan ymmärrettävää, koska SFST tekee kaikenlaista optimointia
noille transduktoreille, malaga ei tee juuri mitään vastaavaa. Eli jos joku
ensimmäistä kertaa kokeilee tätä, kannattaa make-komennon antamisen jälkeen
varautua odottamaan tovi.
- Nopeus on analysointivaiheessa vähintään kymmenkertainen Suomi-malagaan
verrattuna. Eli tuo edellä mainittu optimointi kyllä kannattaa.
- Jouduin poistamaan liitepartikkelit ja vertailumuodot, jotta sanojen
generointi komennolla "fst-generate -u omorfi.sfsta" ei tuottaisi
kohtuuttoman paljon (oikoluvun kannalta) virheellisiä muotoja. Nämä varmaan
ovat tunnettuja asioita, ja ehkä osittain tarkoituksellisia. Mutta tällä
tavoin mukautettu transduktori oli joka tapauksessa mukavampi käyttää, kun
kokeilin syöttää generoituja sanoja voikkospellin läpi.
- Muokkauksia tehdessäni havaitsin, että kun eräitä sfst-tiedostoja oli
editoitu, make ei ymmärtänyt, että jotain pitäisi generoida uudelleen. Ehkä
sain jotain rikottua liikaa, tai sitten Makefilessä ei ole kerrottu kaikkia
tarpeellisia tiedostojen välisiä riippuvuuksia.
- Omorfi on ERITTÄIN hyvä testiväline Voikon kehittämistä varten. Sen avulla
löysin taas uuden bugin Voikon omistusliitteiden käsittelyssä: Voikko
hyväksyi virheellisen muodon *maleksimaaan. Tämä sama bugi on myös Omorfissa,
tai ainakin siinä minun hakkeroimassa versiossani :)
- Omorfista löytyi myös muita tapauksia, joissa generoiduissa sanoissa on
kolme samaa kirjainta peräkkäin. Ehkä näistäkin osa johtuu tekemistäni
muutoksista, mutta osa voi olla myös alkuperäisessä versiossa (jota en nyt
ehdi kääntämään uusiksi että voisin asian varmistaa). Esimerkiksi
fst-generate -u omorfi.sfsta | grep ttt
tuottaa sanan *mitttelevien (mittelevä<N10><pl><gen>).
- Mitä on suunnitelmissa Omorfin jatkokehityksen suhteen? Onko esimerkiksi
yhdyssanojen käsittelylle tarkoitus jossain vaiheessa tehdä jotain? Voikon
kannalta tämä on varmaan se mielenkiintoisin kysymys. Meillähän on jo pari
vuotta ollut TODO-listalla mahdollinen malagan korvaaminen SFST:llä, mutta en
ole uskaltanut aloittaa tätä projektia kun en oikein tiedä, pystyykö Voikon
yhdyssanasääntöjä järkevästi sen avulla toteuttamaan. Olisi toki kätevää, jos
voisimme käyttää Omorfia suoraan Voikossa (teknisesti malagan korvaaminen
SFST:llä on aika helppo homma), vaikka sanastona luultavasti käyttäisimmekin
nykyistä Voikon sanastoa, emme Kotuksen listaa.
- Mihin Omorfista löytyvät bugit kannattaa raportoida? Gna-projektin bug
trackeriin, KitWikiin, tänne postituslistalle? Onko projekti siinä vaiheessa,
että ulkopuolisten tekemiä patcheja hyväksytään mukaan? Katsoin sivut
http://forums.csc.fi/kitwiki/pilot/view/KitWiki/OMorFiRoadmap
http://forums.csc.fi/kitwiki/pilot/view/KitWiki/OMorFiPhases
http://forums.csc.fi/kitwiki/pilot/view/KitWiki/OMorFiFreedom
http://forums.csc.fi/kitwiki/pilot/view/KitWiki/OMorFiCommunity
mutta noista ei vielä selvinnyt, että miten tämän projektin hallinta on
konkreettisesti ajateltu järjestää. Ilmeisesti vaiheissa niin, että ensin
kehitetään HY:n sisällä projektimuotoisesti, ja sitten kun on saatu tuote
riittävän hyvään kuntoon, siirrytään perinteiseen avoimeen kehitykseen?
Harri
More information about the voikko
mailing list