[voikko] GENLEX_OPTS=--sourceid (viittaukset Joukahaiseen)
Harri Pitkänen
hatapitk at iki.fi
Fri Mar 25 08:01:53 EET 2011
On Thursday 24 March 2011, Harri Pitkänen wrote:
> 1) Tehdään sellainen sanastoversio, joka sisältää kaiken muun morfologisen
> tiedon paitsi viittaukset Joukahaiseen. Tämä saattaisi olla teidän
> sovelluksessanne paras vaihtoehto, ainakin jos ette halua linkittää
> analyysejä takaisin Joukahaisen tietokantaan. Se myös hiukan pienentäisi
> morfologisen sanaston tiedostokokoa.
Tämä on nyt toteutettu. Aikaisemmin Suomi-malagan Voikko-versiossa
morfologisen analyysin lisätiedot ja viittaukset Joukahaiseen saatiin
parametrilla VOIKKO_DEBUG:
make voikko VOIKKO_DEBUG=yes
Nyt tämä samainen komento lisää vain morfologisen analyysin lisätiedot muttei
viittauksia Joukahaiseen. Viittaukset saa mukaan seuraavasti:
make voikko VOIKKO_DEBUG=yes GENLEX_OPTS=--sourceid
Huomatkaa, että pelkkä "GENLEX_OPTS=--sourceid" ei tee mitään, eli pelkkiä
viittauksia Joukahaiseen ei ole mahdollista lisätä ilman muuta morfologista
informaatiota.
Julkaisin uudet testisanastot. Siellä on nyt kaksi erilaista morfologista
sanastoa: "morpho" ei enää sisällä viittauksia Joukahaiseen, "morphoid"
puolestaan sisältää (eli se vastaa aikaisempaa morpho-sanastoa):
http://www.puimula.org/htp/testing/voikko-snapshot/
Vielä esimerkki siitä, kuinka perussanasto, morpho-sanasto ja morphoid-sanasto
käytännössä eroavat morfologisessa analyysissä:
$ echo tuhka | voikkospell -m -d fi-x-standard
C: tuhka
A(tuhka):1:CLASS=nimisana
A(tuhka):1:NUMBER=singular
A(tuhka):1:SIJAMUOTO=nimento
A(tuhka):1:STRUCTURE==ppppp
$ echo tuhka | voikkospell -m -d fi-x-morpho
C: tuhka
A(tuhka):1:BASEFORM=tuhka
A(tuhka):1:CLASS=nimisana
A(tuhka):1:NUMBER=singular
A(tuhka):1:SIJAMUOTO=nimento
A(tuhka):1:STRUCTURE==ppppp
A(tuhka):1:WORDBASES=+tuhka(tuhka)
$ echo tuhka | voikkospell -m -d fi-x-morphoid
C: tuhka
A(tuhka):1:BASEFORM=tuhka
A(tuhka):1:CLASS=nimisana
A(tuhka):1:NUMBER=singular
A(tuhka):1:SIJAMUOTO=nimento
A(tuhka):1:STRUCTURE==ppppp
A(tuhka):1:WORDBASES=+tuhka(tuhka)
A(tuhka):1:WORDIDS=+tuhka(w515941)
A(tuhka):2:BASEFORM=tuhka
A(tuhka):2:CLASS=nimisana
A(tuhka):2:NUMBER=singular
A(tuhka):2:SIJAMUOTO=nimento
A(tuhka):2:STRUCTURE==ppppp
A(tuhka):2:WORDBASES=+tuhka(tuhka)
A(tuhka):2:WORDIDS=+tuhka(w515942)
Harri
More information about the voikko
mailing list