[hunspell-fi-devel] Suomi-Malaga: muutamia testituloksia
Harri Pitkänen
hatapitk at cc.jyu.fi
Mon Feb 27 17:10:00 EET 2006
On Monday 27 February 2006 08:49, Hannu Väisänen wrote:
> > - Nominien kompositiivimuotoja (jos nyt käytämme tätä epästandardia
> > sijamuotoa) ei pitäisi sallia muualla kuin yhdyssanoissa. Esimerkiksi
> > sana "hevos" on väärin, mutta "hevosmies" oikein.
>
> Indeksoitavissa tiedostoissa kirjoitetaan "hevos mies", "lois nainen",
> "nais asia nainen", mutta tällaisia sanoja (hevos, lois, nais) on
> luultavasti niin vähän, että niitten siirtämisestä eri tiedostoon ei
> ole paljon vaivaa.
Ei ehkä niinkään vähän...
hunspell=> select count(*) from sana where luokka='subst-p' and sana like
'%nen';
count
-------
78
(1 row)
Tämä ongelma koskee ainakin kaikkia nen-päätteisiä substantiiveja, joita siis
jo Hunspell-sanastossa (noin 5000 sanaa) on 78 kappaletta. Adjektiivien
kohdalla Suomi-Malaga sen sijaan näyttäisi toimivan ihan oikein
tämäntapaisissa tilanteissa.
> Miten siis kerromme malagalle, että "ohjelmalistata" on väärin, mutta
> esim. "ohjelmalistaus" ja "tietokoneohjelmalistauksenikin" ja
> "valokuvata" ja "valokuvaus" ovat oikein?
Jos tämä on vaikeaa Malagassa, niin sen voi varmaan toteuttaa Malagan
ulkopuolella oikolukukirjastossa tutkimalla Malagasta saatuja analyysejä.
Tämäntapaista temppua olin valmistautunut Hunspellinkin kanssa käyttämään.
Graafisten esitysten perusteellahan Malagan pitäisi pysytä tulostamaan
sanalle "ohjelmalistata"
1: "ohjelma[nimisana]+listata[teonsana]+ta[tekijämuodot]"
2: "ohjelma[nimisana]+listata[teonsana]+ta[nimitavat]"
ja sanalle "ohjelmalistaus"
1: "ohjelma[nimisana]+lista[teonsana]+us[teonsanan_johdos]"
Ulkopuoliseen kirjastoon sitten koodataan säännöt, joiden perusteella
nimisana+teonsana (mahdollisesti taivutettuna) on väärin, mutta
nimisana+teonsana johdettuna on oikein.
Minulla on tämän kirjaston runko jo kehitteillä, mutta tuollaisten tulosteiden
saaminen Malagasta olisi hyvin, hyvin hyödyllistä. Niiden avulla moni
tällainen asia voitaisiin ratkaista tekemättä mitään muutoksia Malagan
sisällä.
Mutta totta kyllä on, että nämä asiat vaativat kompromisseja. Jos kiellämme
sanan "ohjelmalistata", niin kiellämme samalla sanan "valokuvata" ja se pitää
lisätä sanastoon erillisenä verbinä. Mutta testasin juuri asiaa Soikolla, ja
se ymmärtää tämän eron. Siispä Soikon sanastossa täytyy olla sana
"valokuvaus" erikseen. Ja kyllähän meidän Soikko pitää pystyä päihittämään :)
Harri
More information about the devel
mailing list