[hunspell-fi-devel] Suomi-Malaga: muutamia testituloksia

Harri Pitkänen hatapitk at cc.jyu.fi
Mon Feb 27 17:10:00 EET 2006


On Monday 27 February 2006 08:49, Hannu Väisänen wrote:
> > - Nominien kompositiivimuotoja (jos nyt käytämme tätä epästandardia
> > sijamuotoa) ei pitäisi sallia muualla kuin yhdyssanoissa. Esimerkiksi
> > sana "hevos" on väärin, mutta "hevosmies" oikein.
>
> Indeksoitavissa tiedostoissa kirjoitetaan "hevos mies", "lois nainen",
> "nais asia nainen", mutta tällaisia sanoja (hevos, lois, nais) on
> luultavasti niin vähän, että niitten siirtämisestä eri tiedostoon ei
> ole paljon vaivaa.

Ei ehkä niinkään vähän...

hunspell=> select count(*) from sana where luokka='subst-p' and sana like 
'%nen';
 count
-------
    78
(1 row)

Tämä ongelma koskee ainakin kaikkia nen-päätteisiä substantiiveja, joita siis 
jo Hunspell-sanastossa (noin 5000 sanaa) on 78 kappaletta. Adjektiivien 
kohdalla Suomi-Malaga sen sijaan näyttäisi toimivan ihan oikein 
tämäntapaisissa tilanteissa.



> Miten siis kerromme malagalle, että "ohjelmalistata" on väärin, mutta
> esim. "ohjelmalistaus" ja "tietokoneohjelmalistauksenikin" ja
> "valokuvata" ja "valokuvaus" ovat oikein?

Jos tämä on vaikeaa Malagassa, niin sen voi varmaan toteuttaa Malagan 
ulkopuolella oikolukukirjastossa tutkimalla Malagasta saatuja analyysejä. 
Tämäntapaista temppua olin valmistautunut Hunspellinkin kanssa käyttämään. 
Graafisten esitysten perusteellahan Malagan pitäisi pysytä tulostamaan 
sanalle "ohjelmalistata"

1: "ohjelma[nimisana]+listata[teonsana]+ta[tekijämuodot]"
2: "ohjelma[nimisana]+listata[teonsana]+ta[nimitavat]"

ja sanalle "ohjelmalistaus"

1: "ohjelma[nimisana]+lista[teonsana]+us[teonsanan_johdos]"

Ulkopuoliseen kirjastoon sitten koodataan säännöt, joiden perusteella 
nimisana+teonsana (mahdollisesti taivutettuna) on väärin, mutta 
nimisana+teonsana johdettuna on oikein.

Minulla on tämän kirjaston runko jo kehitteillä, mutta tuollaisten tulosteiden 
saaminen Malagasta olisi hyvin, hyvin hyödyllistä. Niiden avulla moni 
tällainen asia voitaisiin ratkaista tekemättä mitään muutoksia Malagan 
sisällä.

Mutta totta kyllä on, että nämä asiat vaativat kompromisseja. Jos kiellämme 
sanan "ohjelmalistata", niin kiellämme samalla sanan "valokuvata" ja se pitää 
lisätä sanastoon erillisenä verbinä. Mutta testasin juuri asiaa Soikolla, ja 
se ymmärtää tämän eron. Siispä Soikon sanastossa täytyy olla sana 
"valokuvaus" erikseen. Ja kyllähän meidän Soikko pitää pystyä päihittämään :)

Harri



More information about the devel mailing list