[voikko] GENLEX_OPTS=--sourceid (viittaukset Joukahaiseen)
    Harri Pitkänen 
    hatapitk at iki.fi
       
    Fri Mar 25 08:01:53 EET 2011
    
    
  
On Thursday 24 March 2011, Harri Pitkänen wrote:
> 1) Tehdään sellainen sanastoversio, joka sisältää kaiken muun morfologisen 
> tiedon paitsi viittaukset Joukahaiseen. Tämä saattaisi olla teidän 
> sovelluksessanne paras vaihtoehto, ainakin jos ette halua linkittää
> analyysejä  takaisin Joukahaisen tietokantaan. Se myös hiukan pienentäisi
> morfologisen sanaston tiedostokokoa.
Tämä on nyt toteutettu. Aikaisemmin Suomi-malagan Voikko-versiossa 
morfologisen analyysin lisätiedot ja viittaukset Joukahaiseen saatiin 
parametrilla VOIKKO_DEBUG:
 make voikko VOIKKO_DEBUG=yes
Nyt tämä samainen komento lisää vain morfologisen analyysin lisätiedot muttei 
viittauksia Joukahaiseen. Viittaukset saa mukaan seuraavasti:
 make voikko VOIKKO_DEBUG=yes GENLEX_OPTS=--sourceid
Huomatkaa, että pelkkä "GENLEX_OPTS=--sourceid" ei tee mitään, eli pelkkiä 
viittauksia Joukahaiseen ei ole mahdollista lisätä ilman muuta morfologista 
informaatiota.
Julkaisin uudet testisanastot. Siellä on nyt kaksi erilaista morfologista 
sanastoa: "morpho" ei enää sisällä viittauksia Joukahaiseen, "morphoid" 
puolestaan sisältää (eli se vastaa aikaisempaa morpho-sanastoa):
  http://www.puimula.org/htp/testing/voikko-snapshot/
Vielä esimerkki siitä, kuinka perussanasto, morpho-sanasto ja morphoid-sanasto 
käytännössä eroavat morfologisessa analyysissä:
$ echo tuhka | voikkospell -m -d fi-x-standard
C: tuhka
A(tuhka):1:CLASS=nimisana
A(tuhka):1:NUMBER=singular
A(tuhka):1:SIJAMUOTO=nimento
A(tuhka):1:STRUCTURE==ppppp
$ echo tuhka | voikkospell -m -d fi-x-morpho
C: tuhka
A(tuhka):1:BASEFORM=tuhka
A(tuhka):1:CLASS=nimisana
A(tuhka):1:NUMBER=singular
A(tuhka):1:SIJAMUOTO=nimento
A(tuhka):1:STRUCTURE==ppppp
A(tuhka):1:WORDBASES=+tuhka(tuhka)
$ echo tuhka | voikkospell -m -d fi-x-morphoid
C: tuhka
A(tuhka):1:BASEFORM=tuhka
A(tuhka):1:CLASS=nimisana
A(tuhka):1:NUMBER=singular
A(tuhka):1:SIJAMUOTO=nimento
A(tuhka):1:STRUCTURE==ppppp
A(tuhka):1:WORDBASES=+tuhka(tuhka)
A(tuhka):1:WORDIDS=+tuhka(w515941)
A(tuhka):2:BASEFORM=tuhka
A(tuhka):2:CLASS=nimisana
A(tuhka):2:NUMBER=singular
A(tuhka):2:SIJAMUOTO=nimento
A(tuhka):2:STRUCTURE==ppppp
A(tuhka):2:WORDBASES=+tuhka(tuhka)
A(tuhka):2:WORDIDS=+tuhka(w515942)
Harri
    
    
More information about the voikko
mailing list