[voikko] Perusmuodot ja erisnimet Sukijassa

Harri Pitkänen hatapitk at iki.fi
Wed May 20 17:14:13 EEST 2015


Hei!

On Wednesday 20 May 2015 14:34:36 Marko Laakso wrote:
> Näyttää erittäin lupaavalta! Periaatteessa mallisi mukainen lista on jo
> itsessään samaa tasoa, kuin Malagasta saamani tulosteet, mutta
> mainitsemistasi sanaluokista ja erisnimien tyypeistä olisi meille kyllä
> paljon apua. Käsittelemme esimerkiksi henkilöiden ja paikkojen nimet
> aivan eri tavalla. Jos ohjelma erottelee verbit, adjektiivit yms.
> toisistaan, niin tämäkin helpottaisi tulosten jatkokäsittelyä.

Tämäkin onnistuu voikkospell-komennolla:

$ echo Nurmekseen | voikkospell -m -d fi-x-malmor | grep 'CLASS\|BASEFORM'
A(Nurmekseen):1:BASEFORM=Nurmes
A(Nurmekseen):1:CLASS=paikannimi
A(Nurmekseen):2:BASEFORM=nurmi
A(Nurmekseen):2:CLASS=nimisana
A(Nurmekseen):3:BASEFORM=Nurmi
A(Nurmekseen):3:CLASS=sukunimi

> Onko morfologioiden tunnistus Java-ohjelmalle iso urakka ts. selviääkö
> sen kanssa pitkistäkin listoista sanoja? Malaga on selvinnyt
> kohtuullisella odottelulla kymmenistä tai sanoista tuhansista kyselyistä
> joten samaa luokkaa oleva suorituskyky riittää kyllä tarpeisiimme.

Javan käyttö ei tässä vaikuta suorituskykyyn merkittävästi, koska varsinainen 
morfologinen analyysi tapahtuu samassa natiivissa (C tai C++)-kirjastossa kuin 
komentorivityökaluilla. Sama pätee sekä Sukijaan että Voikkoon, vaikka niiden 
Java-rajapinnat poikkeavat toisistaan. Libvoikon osalta Java-rajapinnan 
käyttöön löytyy ohjeita näiltä sivuilta:

  http://voikko.puimula.org/java.html

  http://www.puimula.org/htp/testing/voikko-sdk/java/javadoc/

> Käytämme Malagaa ainoastaan löytääksemme sanojen perusosat, joten
> siirtyminen vfst-morfologiaan ei liene teknisesti kovinkaan suuri hyppy
> kunhan tiedämme kuinka vastaavat kyselyt hoituvat sen päällä.

Kuten aikaisemmassa viestissä olevasta esimerkistä näkyi, libvoikon kautta 
käytettäessä Malaga- ja VFST-morfologioiden erot eivät näy käyttäjälle 
lainkaan.

VFST-morfologia on käytössä jonkin verran (noin 40 %) nopeampi kuin Malaga-
morfologia. Sen ongelma tällä hetkellä on vielä se, että koska VFST-
morfologiaa ei ole virallisesti julkaistu, valmiita binäärisanastoja ei vielä 
ole jakelussa ja libvoikko on käännettävä uusimmista lähdekoodeista 
valitsimella --enable-vfst.

Harri


More information about the voikko mailing list