[hunspell-fi-devel] Yhdyssanat ja sanojen tiettyjen muotojen yleisyys kielessä

Mon May 8 14:13:08 EEST 2006

Tämä lähinnä kielen eikä koodauksen tuntijoille:

Kuvitellaan, että sanasto kerättäisiin yksinkertaisesti poimimalla 
riittävän massiivisesta ja oletettavasti virheettömästä tekstistä kaikki 
sanat. Tämähän ei toimi, sillä taivutusmuotoja on älyttömästi. Esim. 
'kissatta' ei välttämättä esiinny kuin äärimmäisen harvoin, vaikka on 
vielä yleisen sanan ei-aivan-harvinainen taivutusmuoto.

Mutta miten on yhdyssanojen kanssa? Jos indeksoitaisiin massiivinen 
teksti, löytyisikö siitä esim. 'omenapuussa' ja 'täydenkuun aikaan', niin 
että tiedettäisiin sanojen 'omenapuu' ja 'täysikuu' olevan oikeita 
yhdyssanoja. Vai tulisiko liikaa virheitä, joko siten että jossain 
kumminkin lukee vahingossa 'omenakuu' tai 'täysipuu'? Vai keksitäänkö 
yhdyssanoja niin paljon koko ajan (mallia 'luumupuu', jota ehkä ei olisi
sanastossa), että tällainen menettely ei oikeasti toimisi? Vai tulisiko 
tästä liian iso sanasto?

-- 
Jori Mäntysalo
Laboratorioinsinööri
TAUCHI / Tietojenkäsittelytieteiden laitos / Tampereen yliopisto
Puh. 03-35518893, email jori at cs.uta.fi, kotisivu http://www.uta.fi/%7ejm58660/