[voikko] Voikon Java-rajapinnan morfologinen analyysi
Harri Pitkänen
hatapitk at iki.fi
Thu Mar 24 21:32:02 EET 2011
On Thursday 24 March 2011, juhohe at cc.joensuu.fi wrote:
> Sana "tuhka" tuotti kaksi identtistä analyysiä. Minulla on uusimmat
> sanastot asennettuna.
Tarkasti ottaen nämä analyysit eivät ole identtisiä:
echo tuhka | voikkospell -m -d fi-x-standard+debug
C: tuhka
A(tuhka):1:BASEFORM=tuhka
A(tuhka):1:CLASS=nimisana
A(tuhka):1:NUMBER=singular
A(tuhka):1:SIJAMUOTO=nimento
A(tuhka):1:STRUCTURE==ppppp
A(tuhka):1:WORDBASES=+tuhka(tuhka)
A(tuhka):1:WORDIDS=+tuhka(w515941)
A(tuhka):2:BASEFORM=tuhka
A(tuhka):2:CLASS=nimisana
A(tuhka):2:NUMBER=singular
A(tuhka):2:SIJAMUOTO=nimento
A(tuhka):2:STRUCTURE==ppppp
A(tuhka):2:WORDBASES=+tuhka(tuhka)
A(tuhka):2:WORDIDS=+tuhka(w515942)
Ero löytyy WORDIDS-attribuutista, toisessa id on 515941, toisessa 515942.
Tuhka-sanan astevaihtelu on valinnainen (eli "tuhkan" ja "tuhan" ovat molemmat
oikein). Sanastossamme tällaiset tapaukset on toteutettu laittamalla sana
sanastoon kahtena erillisenä tietueena.
Normaaleissa sanastoversioissa nämä tietueet yhdistetään sanastoa
generoitaessa automaattisesti yhdeksi tietueeksi. Jos siis teen saman
analyysin perussanastolla, tulee vain yksi tulos:
$ echo tuhka | voikkospell -m -d fi-x-standard
C: tuhka
A(tuhka):1:CLASS=nimisana
A(tuhka):1:NUMBER=singular
A(tuhka):1:SIJAMUOTO=nimento
A(tuhka):1:STRUCTURE==ppppp
Kuitenkin juuri tämä viittaus Joukahaisen tietueeseen estää morfologisissa
sanastoissa tietueiden yhdistämisen. Näen tähän pari ratkaisuvaihtoehtoa:
1) Tehdään sellainen sanastoversio, joka sisältää kaiken muun morfologisen
tiedon paitsi viittaukset Joukahaiseen. Tämä saattaisi olla teidän
sovelluksessanne paras vaihtoehto, ainakin jos ette halua linkittää analyysejä
takaisin Joukahaisen tietokantaan. Se myös hiukan pienentäisi morfologisen
sanaston tiedostokokoa.
2) Toteutetaan Joukahaiseen uutena ominaisuutena attribuutti "valinnainen
astevaihtelu", jolloin erillisiä tietueita ei tarvittaisi. Tämä olisi paremmin
linjassa Kotus-sanalistan käytännön kanssa ja ehkäpä semanttisesti järkevää.
Toisaalta nykyisessä järjestelyssä on se hyvä puoli, että voimme merkitä
Joukahaiseen, kumpi taivutus on yleisempi. Emme tosin ole koskaan hyödyntäneet
tätä mahdollisuutta, vaikka se on ollut olemassa.
Vaihtoehto 1) olisi helppo toteuttaa, eikä siitä ainakaan olisi haittaa. Eli
minun kannattaa varmaan tehdä se joka tapauksessa. Vaihtoehto 2) on vähän
kyseenalaisempi, en nyt heti osaa sanoa, onko se vaivan arvoista tässä
vaiheessa.
Harri
More information about the voikko
mailing list