[hunspell-fi-devel] Suomi-Malaga: muutamia testituloksia

Harri Pitkänen hatapitk at cc.jyu.fi
Fri Feb 24 21:05:55 EET 2006


Kokeilin äsken yksinkertaista testiä, jossa syötin Suomi-Malagan läpi kaikki 
viisikirjaimiset ja sitä lyhyemmät kirjainyhdistelmät. Tarkoitus oli 
arvioida, kuinka paljon virheellisiä sanoja tunnistetaan oikeiksi, ja tulos 
oli että aika paljon. Tämä voi tietysti pitkälti johtua siitä että ohjelma on 
tehty indeksoinnin eikä oikoluvun tarpeisiin, mutta tässä kuitenkin muutamia 
oikoluvun kannalta korjaamisen arvoisia asioita, jotka heti pistivät silmään 
noita hyväksyttyjen sanojen listoja tutkimalla. Eivät nämä ole sen 
kiireellisempiä kuin muutkaan asiat, mutta etteivät pääse unohtumaan:

- Erisnimien käyttö yhdyssanojen osina: Suomi-malaga hyväksyy esimerkiksi 
sanat "tuoliwiik", "wiiktuoli" ja "tuoliwiiktuoli". Nuo voisi ehkä vielä 
hyväksyä yhdysviivan kanssa, mutta ei ilman.
- Lyhyitä sanoja pitäisi karsia pois perussanastosta jos ne ovat harvinaisia. 
Esimerkiksi kaksikirjaimiset vieraskieliset nimet ovat tällaisia. Ihmettelin 
pitkään, mitä tarkoittaa "wutta", mutta se siis oli "ilman Wu-nimistä 
henkilöä".
- Nominien kompositiivimuotoja (jos nyt käytämme tätä epästandardia 
sijamuotoa) ei pitäisi sallia muualla kuin yhdyssanoissa. Esimerkiksi sana 
"hevos" on väärin, mutta "hevosmies" oikein.
- Nomini+verbi -yhdyssanat eivät taida yleisesti ottaen olla hyväksyttäviä. 
Esimerkiksi "voiuin" on tällainen.
- Tiedostot "omat.lex" ja "omat2.lex" kannattanee jättää pois yleiseen 
käyttöön tulevista versioista.

Harri



More information about the devel mailing list