[hunspell-fi-devel] Suomi-Malaga: muutamia testituloksia

Hannu Väisänen hvaisane at joyx.joensuu.fi
Mon Feb 27 08:49:08 EET 2006


On Fri, Feb 24, 2006 at 09:05:55PM +0200, Harri Pitkänen wrote:
> Tarkoitus oli 
> arvioida, kuinka paljon virheellisiä sanoja tunnistetaan oikeiksi, ja tulos 
> oli että aika paljon. Tämä voi tietysti pitkälti johtua siitä että ohjelma on 
> tehty indeksoinnin eikä oikoluvun tarpeisiin,

Pitää paikkansa. Indeksoinnissa tärkeintä on tunnistaa kaikki
indeksoitavissa tiedostoissa olevat sanat, myös väärin kirjoitetut
(julkasta, kirjottaa). Jos samalla tunnistetaan oikeiksi sellaisia
sanoja, joita ei ole indeksoitavissa tiedostoissa, sillä ei ole väliä.


Käytän tässä esityksessä mahdollisimman vähän kielitieteen sanastoa,
joka ei taida olla kaikille tuttua.

Suurin osa Harrin huomioista liittyy yhdyssanoihin. Suomen kielessä
yhdyssanoja on mahdotonta käsitellä oikein ymmärtämättä sanojen
merkitystä.



> - Erisnimien käyttö yhdyssanojen osina: Suomi-malaga hyväksyy esimerkiksi 
> sanat "tuoliwiik", "wiiktuoli" ja "tuoliwiiktuoli". Nuo voisi ehkä vielä 
> hyväksyä yhdysviivan kanssa, mutta ei ilman.

Hyvä idea.

Tuleeko kenellekään mieleen sellaista yhdyssanaa, jossa on erisnimi
ilman yhdysviivaa? En tarkoita sanoja, jotka ovat sekä eris- että
yleisnimiä (tapani eli tapaninpäivä). Minulle ei tule.



> - Lyhyitä sanoja pitäisi karsia pois perussanastosta jos ne ovat harvinaisia. 
> Esimerkiksi kaksikirjaimiset vieraskieliset nimet ovat tällaisia. Ihmettelin 
> pitkään, mitä tarkoittaa "wutta", mutta se siis oli "ilman Wu-nimistä 
> henkilöä".

Harvinaisten sanojen karsiminen (tai mieluummin siirtäminen eri
tiedostoon, josta ne voi ottaa käyttöön, jos haluaa) on hyvä idea.
Kaksikirjaimisia vieraskielisiä nimiä on vain muutama, joten se ei
tässä paljoa auta, mutta eipä siirrossa sitten ole paljon vaivaakaan.



> - Nominien kompositiivimuotoja (jos nyt käytämme tätä epästandardia 
> sijamuotoa) ei pitäisi sallia muualla kuin yhdyssanoissa. Esimerkiksi sana 
> "hevos" on väärin, mutta "hevosmies" oikein.

Indeksoitavissa tiedostoissa kirjoitetaan "hevos mies", "lois nainen",
"nais asia nainen", mutta tällaisia sanoja (hevos, lois, nais) on
luultavasti niin vähän, että niitten siirtämisestä eri tiedostoon ei
ole paljon vaivaa.


> - Nomini+verbi -yhdyssanat eivät taida yleisesti ottaen olla hyväksyttäviä. 
> Esimerkiksi "voiuin" on tällainen.

Suomi-malaga on helppo muuttaa hylkäämään tällaiset sanat (kommentoi
vain yhden rivin suomi.mor -tiedostossa, mutta samalla tulevat
hylätyksi myös kaikki johdokset. Jos siis hylätään esim.
"ohjelmalistata", myös "ohjelmalistaus" tulee hylätyksi (listata =>
listaus). Asiaa on parasta ajatella niin kuin muitakin yhdyssanoja:
niitä tulee väistämättä sellaisia, joissa ei ole mitään järkeä.


Ongelmana on malagan tietorakenne LAG (left associative grammar), joka
jäsentää merkkijonoja (ei siis sanoja!!!) vasemmalta oikealle ja joka
pitää muistissaan vain kahta vierekkäistä merkkijonon osaa.

Merkkijonossa "ohjelmalistata" on kolme osaa. Ensin malaga jäsentää
osat "ohjelma" ja "lista" ja saa sanan "ohjelmalista". Sitten se
unohtaa osan "ohjelma" ja katsoo, mikä seuraa osaa "lista". Se on
"ta", ja malaga tietää automaagisesti (LAG:n ansiosta), että "listata"
on hyväksyttävä merkkijono. Näin se hyväksyy merkkijonon
ohjelma+lista+ta.

Kun malaga on jäsentänyt osan "ta", sen pitäisi jäsentää merkkijono
uudestaan oikealta vasemmalle. (Ja astevaihtelussa suomen kielen
sanoja pitäisi jäsentää molempiin suuntiin yhtaikaa, mutta se on jo
toinen tarina. :-)

Tämä on mahdollista tehdä käsipelillä eli malagan tietorakennetta voi
käydä läpi takaperin ja katsoa, mikä oli ennen merkkijonoa "lista",
mutta sitten tulee vaikea paikka: miten me kerromme malagalle, mitkä
merkkijonot voivat tulla ennen merkkijonoa "lista"?

Miten siis kerromme malagalle, että "ohjelmalistata" on väärin, mutta
esim. "ohjelmalistaus" ja "tietokoneohjelmalistauksenikin" ja
"valokuvata" ja "valokuvaus" ovat oikein?


> - Tiedostot "omat.lex" ja "omat2.lex" kannattanee jättää pois yleiseen 
> käyttöön tulevista versioista.

Näin oli tarkoitus. Versiossa 0.2 on tyhjä tiedosto omat.lex, johon
jokainen voi lisätä omia sanojaan.



More information about the devel mailing list