[voikko] sanastoista
Harri Pitkänen
hatapitk at iki.fi
Sun Nov 29 11:48:01 EET 2015
Hei!
On Sunday 29 November 2015 11:08:48 Teemu Kanstrén wrote:
> Tein palvelun Oulun valtuuston päiväkirjojen hakuun ja Voikkoa ehdoteltiin
> käytettäväksi sanojen tuunaamisessa. Joten ajelin Voikon läpi kokeeksi
> sieltä löytyviä sanoja. Hieno ohjelma ja palvelu tämä Voikko. Kiitokset
> kaikille jotka efforttia ovat näin paljon pistäneet tähän.
Hienoa, jos Voikosta on ollut teille apua.
> Alla joitain sanoja sekä nimiä joille Voikon analyysi ei antanut mitään
> tulosta. Näistä voi iso osa olla yhdyssanojen osia tai muunlaisia
> viritelmiä jotka eivät sinne kuuluisikkaan. Haittaakse?
Listalla on tosiaan muutamia sanoja, jotka voisin sanastoon lisätä. Käyn ne
läpi ja lisään vielä tänään. Nimistön osalta pienten kylien nimiä on pakkokin
jättää sanastosta pois, jottei se paisu liian suureksi, mutta tarkistan nekin.
Suuri osa noista listaamistasi sanoista näyttäisi kuitenkin olevan sellaisia,
että ne on hylätty sanan alussa tai lopussa olevan yhdysmerkin puuttumisen
takia. Esimerkkejä:
"vuotias" ei kelpaa, mutta "-vuotias" tai "20-vuotias" kelpaisi
"sosiaali" ei kelpaa, mutta "sosiaali-" kelpaisi
Eli kannattaa tarkistaa, että jakaessasi tekstiä sanoihin mahdolliset
yhdysmerkit sanan alussa tai lopussa otetaan mukaan sanaan. Mikäli käytät
libvoikon tokens-funktiota sanojen poimimiseen, sen pitäisi tehdä tämä oikein.
> Sanastona minulla on
> http://www.puimula.org/htp/testing/voikko-snapshot/dict-morphoid.zip.
> Analyysillä tarkoitan Voikko.analyze() kutsua valitulla sanalla.
>
> Jos haluaa katsoa missä yhteydessä tietty sana löytyy, dokumentit löytyy
> laittamalla sana hakukoneeseen http://oukadata.ddns.net/.
Näyttää hienolta!
> Jos on hyviä vinkkejä miten näitä (sanoja) paremmin Voikolla käsitellä,
> otan mielellään vastaan.
Edellä mainitun tokens-funktion käytön lisäksi voit myös rakentaa sanaston
lähdekoodista optiolla SUKIJA_MUODOT=yes, jolloin analyysissä hyväksytään myös
eräitä tunnettuja kielivirheitä. Tästä voi olla apua, mutta myös haitallisia
sivuvaikutuksia, eli kannattaa vertailla lopputulosta ja tehdä ratkaisu sen
mukaan.
Lähiviikkoina julkaisemme uudet versiot libvoikosta ja sanastoista
tehokkaammassa VFST-formaatissa. Tällä ei luultavasti ole ensivaiheessa suurta
merkitystä tuossa sinun käyttötapauksessasi, mutta myöhemmin VFST-sanastoihin
on tulossa muutoksia, joista voi olla apua:
http://voikko.puimula.org/vfst-transition.html
Harri
More information about the voikko
mailing list