[hunspell-fi-devel] Suomi-Malaga: muutamia testituloksia
Harri Pitkänen
hatapitk at cc.jyu.fi
Fri Feb 24 21:05:55 EET 2006
Kokeilin äsken yksinkertaista testiä, jossa syötin Suomi-Malagan läpi kaikki
viisikirjaimiset ja sitä lyhyemmät kirjainyhdistelmät. Tarkoitus oli
arvioida, kuinka paljon virheellisiä sanoja tunnistetaan oikeiksi, ja tulos
oli että aika paljon. Tämä voi tietysti pitkälti johtua siitä että ohjelma on
tehty indeksoinnin eikä oikoluvun tarpeisiin, mutta tässä kuitenkin muutamia
oikoluvun kannalta korjaamisen arvoisia asioita, jotka heti pistivät silmään
noita hyväksyttyjen sanojen listoja tutkimalla. Eivät nämä ole sen
kiireellisempiä kuin muutkaan asiat, mutta etteivät pääse unohtumaan:
- Erisnimien käyttö yhdyssanojen osina: Suomi-malaga hyväksyy esimerkiksi
sanat "tuoliwiik", "wiiktuoli" ja "tuoliwiiktuoli". Nuo voisi ehkä vielä
hyväksyä yhdysviivan kanssa, mutta ei ilman.
- Lyhyitä sanoja pitäisi karsia pois perussanastosta jos ne ovat harvinaisia.
Esimerkiksi kaksikirjaimiset vieraskieliset nimet ovat tällaisia. Ihmettelin
pitkään, mitä tarkoittaa "wutta", mutta se siis oli "ilman Wu-nimistä
henkilöä".
- Nominien kompositiivimuotoja (jos nyt käytämme tätä epästandardia
sijamuotoa) ei pitäisi sallia muualla kuin yhdyssanoissa. Esimerkiksi sana
"hevos" on väärin, mutta "hevosmies" oikein.
- Nomini+verbi -yhdyssanat eivät taida yleisesti ottaen olla hyväksyttäviä.
Esimerkiksi "voiuin" on tällainen.
- Tiedostot "omat.lex" ja "omat2.lex" kannattanee jättää pois yleiseen
käyttöön tulevista versioista.
Harri
More information about the devel
mailing list