[hunspell-fi-devel] Sukija, suomen kielt ymmrtv indeksointi- ja oikolukuohjelma, versio 0.2
Harri Pitkänen
hatapitk at cc.jyu.fi
Mon Feb 27 16:40:56 EET 2006
On Monday 27 February 2006 07:28, Hannu Väisänen wrote:
> Sukijasta ja suomi-malgasta on ilmestynyt uusi versio.
>
> http://joyds1.joensuu.fi/sukija/sukija.html
>
> Mukana on linkki ohjeisiin, miten suomi-malagaa voi käyttää oikolukuun
> OpenOfficessa.
Voisi muuten olla parempi linkittää suoraan osoitteeseen
http://www.hunspell-fi.org/malaga/ koska lisäsin tuonne viikonlopun aikana
Oo2-voikko -paketin myös FreeBSD:n versiolle 6. Samalla korjailin
asennusohjetta, jonka uusin versio löytyy nyt myös tuosta hakemistosta.
> Suomi-malagaan on lisätty sanoja ja virheellisiä sanojen taivutuksia
> on korjattu.
Mietin tuota yhtä korjausta, eli
-[perusmuoto: "elitistinen", alku: "elitisti", luokka: laatusana, jatko:
<nainen>, äs: a];
+[perusmuoto: "elitistinen", alku: "elitisti", luokka: laatusana, jatko:
<nainen>, äs: ä];
Tuossahan oli kyse vain väärästä vokaalityypistä taivutuspäätteissä.
Hunspell-fi -sanastossa nämä päätellään koneellisesti algoritmilla, jonka
kirjoitin Nykysuomen käsikirjassa esitettyjen sääntöjen pohjalta.
Toistaiseksi tuo algoritmi on näyttänyt toimivan virheettömästi. Se tunnistaa
oikein myös vaikeat tapaukset kuten "analyysi", joissa voi käyttää molempia
vokaalityyppejä. Ehkäpä kannattaisi joskus ajaa sanaston sanat läpi tästä
algoritmista ja katsoa, löytyykö eroavaisuuksia. Tämä olisi hyvä testi sekä
algoritmille että sanastolle, ideaalitapauksessa eroja ei saisi löytyä.
Mietin myös, että voisiko tuon alku-kentän sisällön myös generoida
automaattisesti jollakin tavalla vai sisältääkö se jotain informaatiota joka
on pääteltävä tapauskohtaisesti?
Harri
More information about the devel
mailing list