[voikko] GENLEX_OPTS=--sourceid (viittaukset Joukahaiseen)

Harri Pitkänen hatapitk at iki.fi
Fri Mar 25 08:01:53 EET 2011


On Thursday 24 March 2011, Harri Pitkänen wrote:
> 1) Tehdään sellainen sanastoversio, joka sisältää kaiken muun morfologisen 
> tiedon paitsi viittaukset Joukahaiseen. Tämä saattaisi olla teidän 
> sovelluksessanne paras vaihtoehto, ainakin jos ette halua linkittää
> analyysejä  takaisin Joukahaisen tietokantaan. Se myös hiukan pienentäisi
> morfologisen sanaston tiedostokokoa.

Tämä on nyt toteutettu. Aikaisemmin Suomi-malagan Voikko-versiossa 
morfologisen analyysin lisätiedot ja viittaukset Joukahaiseen saatiin 
parametrilla VOIKKO_DEBUG:

 make voikko VOIKKO_DEBUG=yes

Nyt tämä samainen komento lisää vain morfologisen analyysin lisätiedot muttei 
viittauksia Joukahaiseen. Viittaukset saa mukaan seuraavasti:

 make voikko VOIKKO_DEBUG=yes GENLEX_OPTS=--sourceid

Huomatkaa, että pelkkä "GENLEX_OPTS=--sourceid" ei tee mitään, eli pelkkiä 
viittauksia Joukahaiseen ei ole mahdollista lisätä ilman muuta morfologista 
informaatiota.

Julkaisin uudet testisanastot. Siellä on nyt kaksi erilaista morfologista 
sanastoa: "morpho" ei enää sisällä viittauksia Joukahaiseen, "morphoid" 
puolestaan sisältää (eli se vastaa aikaisempaa morpho-sanastoa):

  http://www.puimula.org/htp/testing/voikko-snapshot/

Vielä esimerkki siitä, kuinka perussanasto, morpho-sanasto ja morphoid-sanasto 
käytännössä eroavat morfologisessa analyysissä:

$ echo tuhka | voikkospell -m -d fi-x-standard
C: tuhka
A(tuhka):1:CLASS=nimisana
A(tuhka):1:NUMBER=singular
A(tuhka):1:SIJAMUOTO=nimento
A(tuhka):1:STRUCTURE==ppppp

$ echo tuhka | voikkospell -m -d fi-x-morpho
C: tuhka
A(tuhka):1:BASEFORM=tuhka
A(tuhka):1:CLASS=nimisana
A(tuhka):1:NUMBER=singular
A(tuhka):1:SIJAMUOTO=nimento
A(tuhka):1:STRUCTURE==ppppp
A(tuhka):1:WORDBASES=+tuhka(tuhka)

$ echo tuhka | voikkospell -m -d fi-x-morphoid
C: tuhka
A(tuhka):1:BASEFORM=tuhka
A(tuhka):1:CLASS=nimisana
A(tuhka):1:NUMBER=singular
A(tuhka):1:SIJAMUOTO=nimento
A(tuhka):1:STRUCTURE==ppppp
A(tuhka):1:WORDBASES=+tuhka(tuhka)
A(tuhka):1:WORDIDS=+tuhka(w515941)
A(tuhka):2:BASEFORM=tuhka
A(tuhka):2:CLASS=nimisana
A(tuhka):2:NUMBER=singular
A(tuhka):2:SIJAMUOTO=nimento
A(tuhka):2:STRUCTURE==ppppp
A(tuhka):2:WORDBASES=+tuhka(tuhka)
A(tuhka):2:WORDIDS=+tuhka(w515942)


Harri



More information about the voikko mailing list