[voikko] Voikon Java-rajapinnan morfologinen analyysi

Harri Pitkänen hatapitk at iki.fi
Thu Mar 24 21:32:02 EET 2011


On Thursday 24 March 2011, juhohe at cc.joensuu.fi wrote:
> Sana "tuhka" tuotti kaksi identtistä analyysiä. Minulla on uusimmat
> sanastot asennettuna.

Tarkasti ottaen nämä analyysit eivät ole identtisiä:

echo tuhka | voikkospell -m -d fi-x-standard+debug
C: tuhka
A(tuhka):1:BASEFORM=tuhka
A(tuhka):1:CLASS=nimisana
A(tuhka):1:NUMBER=singular
A(tuhka):1:SIJAMUOTO=nimento
A(tuhka):1:STRUCTURE==ppppp
A(tuhka):1:WORDBASES=+tuhka(tuhka)
A(tuhka):1:WORDIDS=+tuhka(w515941)
A(tuhka):2:BASEFORM=tuhka
A(tuhka):2:CLASS=nimisana
A(tuhka):2:NUMBER=singular
A(tuhka):2:SIJAMUOTO=nimento
A(tuhka):2:STRUCTURE==ppppp
A(tuhka):2:WORDBASES=+tuhka(tuhka)
A(tuhka):2:WORDIDS=+tuhka(w515942)

Ero löytyy WORDIDS-attribuutista, toisessa id on 515941, toisessa 515942. 
Tuhka-sanan astevaihtelu on valinnainen (eli "tuhkan" ja "tuhan" ovat molemmat 
oikein). Sanastossamme tällaiset tapaukset on toteutettu laittamalla sana 
sanastoon kahtena erillisenä tietueena.

Normaaleissa sanastoversioissa nämä tietueet yhdistetään sanastoa 
generoitaessa automaattisesti yhdeksi tietueeksi. Jos siis teen saman 
analyysin perussanastolla, tulee vain yksi tulos:

$ echo tuhka | voikkospell -m -d fi-x-standard
C: tuhka
A(tuhka):1:CLASS=nimisana
A(tuhka):1:NUMBER=singular
A(tuhka):1:SIJAMUOTO=nimento
A(tuhka):1:STRUCTURE==ppppp

Kuitenkin juuri tämä viittaus Joukahaisen tietueeseen estää morfologisissa 
sanastoissa tietueiden yhdistämisen. Näen tähän pari ratkaisuvaihtoehtoa:

1) Tehdään sellainen sanastoversio, joka sisältää kaiken muun morfologisen 
tiedon paitsi viittaukset Joukahaiseen. Tämä saattaisi olla teidän 
sovelluksessanne paras vaihtoehto, ainakin jos ette halua linkittää analyysejä 
takaisin Joukahaisen tietokantaan. Se myös hiukan pienentäisi morfologisen 
sanaston tiedostokokoa.

2) Toteutetaan Joukahaiseen uutena ominaisuutena attribuutti "valinnainen 
astevaihtelu", jolloin erillisiä tietueita ei tarvittaisi. Tämä olisi paremmin 
linjassa Kotus-sanalistan käytännön kanssa ja ehkäpä semanttisesti järkevää. 
Toisaalta nykyisessä järjestelyssä on se hyvä puoli, että voimme merkitä 
Joukahaiseen, kumpi taivutus on yleisempi. Emme tosin ole koskaan hyödyntäneet 
tätä mahdollisuutta, vaikka se on ollut olemassa.

Vaihtoehto 1) olisi helppo toteuttaa, eikä siitä ainakaan olisi haittaa. Eli 
minun kannattaa varmaan tehdä se joka tapauksessa. Vaihtoehto 2) on vähän 
kyseenalaisempi, en nyt heti osaa sanoa, onko se vaivan arvoista tässä 
vaiheessa.

Harri



More information about the voikko mailing list