[voikko] Perusmuodot ja erisnimet Sukijassa
Harri Pitkänen
hatapitk at iki.fi
Wed May 20 17:14:13 EEST 2015
Hei!
On Wednesday 20 May 2015 14:34:36 Marko Laakso wrote:
> Näyttää erittäin lupaavalta! Periaatteessa mallisi mukainen lista on jo
> itsessään samaa tasoa, kuin Malagasta saamani tulosteet, mutta
> mainitsemistasi sanaluokista ja erisnimien tyypeistä olisi meille kyllä
> paljon apua. Käsittelemme esimerkiksi henkilöiden ja paikkojen nimet
> aivan eri tavalla. Jos ohjelma erottelee verbit, adjektiivit yms.
> toisistaan, niin tämäkin helpottaisi tulosten jatkokäsittelyä.
Tämäkin onnistuu voikkospell-komennolla:
$ echo Nurmekseen | voikkospell -m -d fi-x-malmor | grep 'CLASS\|BASEFORM'
A(Nurmekseen):1:BASEFORM=Nurmes
A(Nurmekseen):1:CLASS=paikannimi
A(Nurmekseen):2:BASEFORM=nurmi
A(Nurmekseen):2:CLASS=nimisana
A(Nurmekseen):3:BASEFORM=Nurmi
A(Nurmekseen):3:CLASS=sukunimi
> Onko morfologioiden tunnistus Java-ohjelmalle iso urakka ts. selviääkö
> sen kanssa pitkistäkin listoista sanoja? Malaga on selvinnyt
> kohtuullisella odottelulla kymmenistä tai sanoista tuhansista kyselyistä
> joten samaa luokkaa oleva suorituskyky riittää kyllä tarpeisiimme.
Javan käyttö ei tässä vaikuta suorituskykyyn merkittävästi, koska varsinainen
morfologinen analyysi tapahtuu samassa natiivissa (C tai C++)-kirjastossa kuin
komentorivityökaluilla. Sama pätee sekä Sukijaan että Voikkoon, vaikka niiden
Java-rajapinnat poikkeavat toisistaan. Libvoikon osalta Java-rajapinnan
käyttöön löytyy ohjeita näiltä sivuilta:
http://voikko.puimula.org/java.html
http://www.puimula.org/htp/testing/voikko-sdk/java/javadoc/
> Käytämme Malagaa ainoastaan löytääksemme sanojen perusosat, joten
> siirtyminen vfst-morfologiaan ei liene teknisesti kovinkaan suuri hyppy
> kunhan tiedämme kuinka vastaavat kyselyt hoituvat sen päällä.
Kuten aikaisemmassa viestissä olevasta esimerkistä näkyi, libvoikon kautta
käytettäessä Malaga- ja VFST-morfologioiden erot eivät näy käyttäjälle
lainkaan.
VFST-morfologia on käytössä jonkin verran (noin 40 %) nopeampi kuin Malaga-
morfologia. Sen ongelma tällä hetkellä on vielä se, että koska VFST-
morfologiaa ei ole virallisesti julkaistu, valmiita binäärisanastoja ei vielä
ole jakelussa ja libvoikko on käännettävä uusimmista lähdekoodeista
valitsimella --enable-vfst.
Harri
More information about the voikko
mailing list