[voikko] sanastoista

Harri Pitkänen hatapitk at iki.fi
Sun Nov 29 11:48:01 EET 2015


Hei!

On Sunday 29 November 2015 11:08:48 Teemu Kanstrén wrote:
>  Tein palvelun Oulun valtuuston päiväkirjojen hakuun ja Voikkoa ehdoteltiin
> käytettäväksi sanojen tuunaamisessa. Joten ajelin Voikon läpi kokeeksi
> sieltä löytyviä sanoja. Hieno ohjelma ja palvelu tämä Voikko. Kiitokset
> kaikille jotka efforttia ovat näin paljon pistäneet tähän.

Hienoa, jos Voikosta on ollut teille apua.

>  Alla joitain sanoja sekä nimiä joille Voikon analyysi ei antanut mitään
> tulosta. Näistä voi iso osa olla yhdyssanojen osia tai muunlaisia
> viritelmiä jotka eivät sinne kuuluisikkaan. Haittaakse?

Listalla on tosiaan muutamia sanoja, jotka voisin sanastoon lisätä. Käyn ne 
läpi ja lisään vielä tänään. Nimistön osalta pienten kylien nimiä on pakkokin 
jättää sanastosta pois, jottei se paisu liian suureksi, mutta tarkistan nekin.

Suuri osa noista listaamistasi sanoista näyttäisi kuitenkin olevan sellaisia, 
että ne on hylätty sanan alussa tai lopussa olevan yhdysmerkin puuttumisen 
takia. Esimerkkejä:

  "vuotias" ei kelpaa, mutta "-vuotias" tai "20-vuotias" kelpaisi
  "sosiaali" ei kelpaa, mutta "sosiaali-" kelpaisi

Eli kannattaa tarkistaa, että jakaessasi tekstiä sanoihin mahdolliset 
yhdysmerkit sanan alussa tai lopussa otetaan mukaan sanaan. Mikäli käytät 
libvoikon tokens-funktiota sanojen poimimiseen, sen pitäisi tehdä tämä oikein.

>  Sanastona minulla on
> http://www.puimula.org/htp/testing/voikko-snapshot/dict-morphoid.zip.
> Analyysillä tarkoitan Voikko.analyze() kutsua valitulla sanalla.
> 
>  Jos haluaa katsoa missä yhteydessä tietty sana löytyy, dokumentit löytyy
> laittamalla sana hakukoneeseen http://oukadata.ddns.net/.

Näyttää hienolta!

>  Jos on hyviä vinkkejä miten näitä (sanoja) paremmin Voikolla käsitellä,
> otan mielellään vastaan.

Edellä mainitun tokens-funktion käytön lisäksi voit myös rakentaa sanaston 
lähdekoodista optiolla SUKIJA_MUODOT=yes, jolloin analyysissä hyväksytään myös 
eräitä tunnettuja kielivirheitä. Tästä voi olla apua, mutta myös haitallisia 
sivuvaikutuksia, eli kannattaa vertailla lopputulosta ja tehdä ratkaisu sen 
mukaan.

Lähiviikkoina julkaisemme uudet versiot libvoikosta ja sanastoista 
tehokkaammassa VFST-formaatissa. Tällä ei luultavasti ole ensivaiheessa suurta 
merkitystä tuossa sinun käyttötapauksessasi, mutta myöhemmin VFST-sanastoihin 
on tulossa muutoksia, joista voi olla apua:

  http://voikko.puimula.org/vfst-transition.html

Harri


More information about the voikko mailing list