[voikko] Perusmuodot ja erisnimet Sukijassa

Hannu Väisänen Hannu.Vaisanen at uef.fi
Thu May 21 08:01:47 EEST 2015


ke, 2015-05-20 kello 17:14 +0300, Harri Pitkänen kirjoitti:

> Tämäkin onnistuu voikkospell-komennolla:
> 
> $ echo Nurmekseen | voikkospell -m -d fi-x-malmor | grep 'CLASS\|BASEFORM'
> A(Nurmekseen):1:BASEFORM=Nurmes
> A(Nurmekseen):1:CLASS=paikannimi
> A(Nurmekseen):2:BASEFORM=nurmi
> A(Nurmekseen):2:CLASS=nimisana
> A(Nurmekseen):3:BASEFORM=Nurmi
> A(Nurmekseen):3:CLASS=sukunimi

Tulokset saattavat olla erilaiset kuin Sukijassa. Sukija nimittäin
tunnistaa yleisiä kirjoitusvirheitä ("kirjottaa"), vanhoja taivutuksia
("isäinsä") ja vanhoja sanoja ("juveli" eli jalokivi). Sovelluksesta
riippuu, onko tällä merkitystä vai ei.

Koska Sukija on tehty Solr:n (http://lucene.apache.org/solr/)
liitännäiseksi, siinä ei ole komentorivityökaluja, ja koska tein Sukijan
sanojen muuttamiseksi perusmuotoon, siinä ei saa sanoista irti muuta
kuin perusmuodot. (-: Vfst-morfologiaan siirtyminen antaa tilaisuuden
kirjoittaa Sukija uudelleen niin, että se saa käyttöönsä kaikki ne
tiedot, jotka vfst-morfologia tuottaa. Samalla Sukijan voi muuttaa
paremmin yhteensopivaksi Solr:n API:n kanssa (joka on muuttunut paljon
Sukijan eka version jälkeen).

Vfst-morfologiassa Sukijaa voi käyttää sekä Voikon oikolukusanaston että
Sukijan generoiman indeksointisanaston kanssa.





More information about the voikko mailing list