[hunspell-fi-devel] Sukija, suomen kielt ymmrtv indeksointi- ja oikolukuohjelma, versio 0.2

Harri Pitkänen hatapitk at cc.jyu.fi
Mon Feb 27 16:40:56 EET 2006


On Monday 27 February 2006 07:28, Hannu Väisänen wrote:
> Sukijasta ja suomi-malgasta on ilmestynyt uusi versio.
>
> http://joyds1.joensuu.fi/sukija/sukija.html
>
> Mukana on linkki ohjeisiin, miten suomi-malagaa voi käyttää oikolukuun
> OpenOfficessa.

Voisi muuten olla parempi linkittää suoraan osoitteeseen 
http://www.hunspell-fi.org/malaga/ koska lisäsin tuonne viikonlopun aikana 
Oo2-voikko -paketin myös FreeBSD:n versiolle 6. Samalla korjailin 
asennusohjetta, jonka uusin versio löytyy nyt myös tuosta hakemistosta.


> Suomi-malagaan on lisätty sanoja ja virheellisiä sanojen taivutuksia
> on korjattu.

Mietin tuota yhtä korjausta, eli
-[perusmuoto: "elitistinen", alku: "elitisti", luokka: laatusana, jatko: 
<nainen>, äs: a];
+[perusmuoto: "elitistinen", alku: "elitisti", luokka: laatusana, jatko: 
<nainen>, äs: ä];

Tuossahan oli kyse vain väärästä vokaalityypistä taivutuspäätteissä. 
Hunspell-fi -sanastossa nämä päätellään koneellisesti algoritmilla, jonka 
kirjoitin Nykysuomen käsikirjassa esitettyjen sääntöjen pohjalta. 
Toistaiseksi tuo algoritmi on näyttänyt toimivan virheettömästi. Se tunnistaa 
oikein myös vaikeat tapaukset kuten "analyysi", joissa voi käyttää molempia 
vokaalityyppejä. Ehkäpä kannattaisi joskus ajaa sanaston sanat läpi tästä 
algoritmista ja katsoa, löytyykö eroavaisuuksia. Tämä olisi hyvä testi sekä 
algoritmille että sanastolle, ideaalitapauksessa eroja ei saisi löytyä.

Mietin myös, että voisiko tuon alku-kentän sisällön myös generoida 
automaattisesti jollakin tavalla vai sisältääkö se jotain informaatiota joka 
on pääteltävä tapauskohtaisesti?

Harri



More information about the devel mailing list