[voikko] Omorfi/HFST:n ja Voikon vertailua

Flammie Pirinen flammie at iki.fi
Tue Jan 12 05:07:18 EET 2010


2009-12-02, Harri Pitkänen sanoi:

> On Wednesday 02 December 2009, Flammie Pirinen wrote:
> > pitäisi kai päättää onko s-kliitti raakattava kokonaan pois
> > oikolukuaineistosta
> 
> Tähän ratkaisuun päädyimme aikanaan Voikossa, eikä asiasta
> muistaakseni ole valituksia kuulunut.

Kokeilen vastaavaa spelleriin ja ehdotusgenerointiin, varmaankin
sanastopohjaisen tavuttimen samoin kun morfologian on vain parasta
osata obskuurimpiakin muotoja.

> En tiedä, kuinka tarkkaan olet perehtynyt siihen, mitä tietoa
> sanoista voidaan Joukahaiseen tällä hetkellä tallentaa. Suurin osa
> tiedoista on boolean- arvoisia attribuutteja, jotka on listattu
> seuraavassa tiedostossa:
> 
> http://voikko.svn.sourceforge.net/viewvc/voikko/trunk/data/words/flags.txt?view=markup
> 
> Enemmän selitystä löytyy Joukahaisen ohjeista, joihin pääsee
> Joukahaisen etusivulta. Joukahainen ei tosiaan ole erityisesti
> sidottu pelkästään Voikkoon, joten jos omorfia varten tarvitaan
> jotain attribuutteja joita Joukahaisesta ei vielä löydy, lisäilen
> niitä pyydettäessä. Ja tietysti saat käyttäjätunnuksenkin, että
> pääset sitten sanojen tietoja muokkaamaan.

Sain juuri omorfin morfofonologian taas sellaiseen kuntoon että joudan
taas katsomaan leksikaalisen datan sovittamista tarkemmin. Tuosta
listasta nyt inflection-, compounding- ja derivation-flägit menevät
morfotaksiin etäriippuvuuksina heittämällä ja style- ja usage-flägit
morfologiseen analyysiin (jonka perusteella voi myös tehdä valikoivaa
jälkisuodatusta helpohkosti). 

Ne mitä nyt tällä hetkellä tarvitsee morfologian aikaansaamiseksi on
vieläkin kotus-luokitus nomineilta ja verbeiltä, jotka kai löytyvätkin
jo. Muut käsin varmistetut lisätiedot joita käytetään ovat nyt noissa
flägeissä mainittujen lisäksi joillekin adverbeille
possessiivitaivutusta tai kliittejä mitä sopii käyttää ja lyhenteille
ja vierassanoille ääntöasua ja monikkosanoille perusmuotoja ym.
pientä., ehkä nekin löytynevät jo tavalla tai toisella jo Joukahaisen
tiedoista.

Yksi yhdyssanojen, tavutusten ja ehdotusten kannalta mahdollisesti
hyödyllinen tieto sanoista olisi saada oikeita frekvenssejä, niitä
voisi ehkä käyttää järjestämään tuloksia jne. Tosin tässäkin pärjää
melko pitkälle kun vain treenaa morfologian frekvenssit isosta
aineistosta löytyvien sanamuotojen perusteella.

> > Olisikohan automaattitestejä jossain kätevässä muodossa esim.
> > liitettäväksi omorfin testeihin?
> 
> Automaattitesteihin liittyvä data löytyy osoitteesta
> 
> http://voikko.svn.sourceforge.net/viewvc/voikko/trunk/tests/voikkotest/
> 
> Luulisin, että noita pystyy parsimaan helpohkosti muillakin
> välineillä.

Raapustelin joululomalla testityökaluihin tulostusapuja ja sain kasaan
html-tulosteen <http://home.gna.org/omorfi/testlogs/omorfi-latest.html>
josta ehkä jo näkee missä kunnossa omorfi on voikko/suomi-malagaan
nähden. 

-- 
Flammie, computer scientist bachelor, linguist master, free software
Finnish localiser, and more! <http://www.iki.fi/flammie/>



More information about the voikko mailing list