[voikko] Sanojen perusmuotojen löytäminen

Hannu Väisänen hvaisane at joyx.joensuu.fi
Tue Mar 3 07:38:49 EET 2009


On Mon, Mar 02, 2009 at 05:27:56PM +0200, Harri Pitkänen wrote:
> On Monday 02 March 2009, Stefan Parviainen wrote:
> > Haussa on siis ohjelma jolle voi
> > antaa sanan ja joka palauttaa sanan perusmuodossa.
> 
> Tätä samaa asiaa kysyttiin pari päivää sitten:
>   http://lists.puimula.org/pipermail/voikko/2009-February/001034.html
> 
> Hannun vastaus tuohon viestiin toivottavasti auttaa alkuun.

Tähän voisin lisätä, että jos perusmuotoon muutettavat sanat
ovat tiedostossa jokainen sana omalla rivillään, kaikki
tiedoston sanat voi muuttaa perusmuotoon komennolla

cat tiedosto.txt | malaga -m suomi.pro


Sitten varoituksen sana: Suomi-Malagan versio, joka muttaa sanat
perusmuotoon, on tehty tiedostojen indeksointia varten, ja se hyväksyy
sanoiksi myös yleisimpiä kirjoitusvirheitä (esim. kirjottaa, julkasta,
kehoittaa), vanhoja ja murteellisia kirjoitusasuja (symbooli,
obligatsioni, talost(a)) ja taivutusmuotoja (matalata, taivahasta,
valohon) ja wanhoja sanoja (juveli eli jalokivi).

Tein Suomi-Malagan nimen omaan sanojen muuttamiseksi perusmuotoon
tiedostojen indeksointia varten, mutta Harri teki oikolukua varten
toisen version, koska oikoluvun tarpeet ovat erilaiset kuin
indeksoinnin ("vääriä" muotoja ei saa hyväksyä; vääryys määräytyy
nykyisten oikeinkirjoitussääntöjen mukaan). Eri versioitten koodissa
on kyllä suht paljon yhteistä, ja sanasto (Joukahaisesta) on ehkä
muutamia kymmeniä sanoja lukuun ottamatta ihan sama.



More information about the voikko mailing list