[hunspell-fi-devel] Yhdyssanoista

Hannu Väisänen hvaisane at joyx.joensuu.fi
Fri May 5 08:23:38 EEST 2006


Harri lähestyy väärin tunnistettujen yhdyssanojen ongelmaa eri tavalla
kuin minä tekisin. Hän näyttää korjaavan vain yksittäisiä sanoja tai
sanatyyppejä, kun minä etsisin ongelmaan yleistä ratkaisua.


Nyt te tietysti haluatte kuulla minun ratkaisuni...

Jos ongelma on joku tietty sana, paras ratkaisu on merkitä se
sanastoon sanaksi, joka ei voi olla yhdyssanan osana, ja sitten
mahdollisesti lisätä sanastoon ne järkevät yhdyssanat, joissa sana
esiintyy.

Jos ongelma on lyhyet sanat, asetetaan koodiin raja, jota lyhyemmät
sanat eivät voi olla yhdyssanan osana, ja sitten mahdollisesti lisätä
sanastoon ne järkevät yhdyssanat, joissa sanat esiintyvät.

Jos koodia muutetaan jokaisen sanan/sanatyypin takia, tuloksena on
makaronia, josta kukaan ei ota enää selvää puolen vuoden kuluttua.



Mutta ennen kaikkea pitäisi löytää tai kehittää säännöt, miten
yhdyssanoja voi muodostaa suomen kielessä, mikä on ratkeamaton ongelma
ymmärtämättä sanojen merkitystä.

Helpompi ongelma on asettaa päämäärä yhdyssanojen tunnistamiselle.

Jos tarkoituksena on hyväksyä vain semattisesti järkevät sanat, se
onnistuu ainoastaan estämällä yhdyssanojen muodostuksen ja laittamalla
sanastoon kaikki järkevät yhdyssanat.

Jos taas tavoitteena on hylätä kaikki hassunkuriset yhdyssanat, sekään
ei onnistu sanojen merkitystä tuntematta.


Lopuksi täytyy kysyä, mitä te haluatte yhdyssanojen tunnistamisen
tekevän?



More information about the devel mailing list