[hunspell-fi-devel] Yhdyssanat ja sanojen tiettyjen muotojen yleisyys kielessä
Jori Mantysalo
jori at cs.uta.fi
Mon May 8 14:13:08 EEST 2006
Tämä lähinnä kielen eikä koodauksen tuntijoille:
Kuvitellaan, että sanasto kerättäisiin yksinkertaisesti poimimalla
riittävän massiivisesta ja oletettavasti virheettömästä tekstistä kaikki
sanat. Tämähän ei toimi, sillä taivutusmuotoja on älyttömästi. Esim.
'kissatta' ei välttämättä esiinny kuin äärimmäisen harvoin, vaikka on
vielä yleisen sanan ei-aivan-harvinainen taivutusmuoto.
Mutta miten on yhdyssanojen kanssa? Jos indeksoitaisiin massiivinen
teksti, löytyisikö siitä esim. 'omenapuussa' ja 'täydenkuun aikaan', niin
että tiedettäisiin sanojen 'omenapuu' ja 'täysikuu' olevan oikeita
yhdyssanoja. Vai tulisiko liikaa virheitä, joko siten että jossain
kumminkin lukee vahingossa 'omenakuu' tai 'täysipuu'? Vai keksitäänkö
yhdyssanoja niin paljon koko ajan (mallia 'luumupuu', jota ehkä ei olisi
sanastossa), että tällainen menettely ei oikeasti toimisi? Vai tulisiko
tästä liian iso sanasto?
--
Jori Mäntysalo
Laboratorioinsinööri
TAUCHI / Tietojenkäsittelytieteiden laitos / Tampereen yliopisto
Puh. 03-35518893, email jori at cs.uta.fi, kotisivu http://www.uta.fi/%7ejm58660/
More information about the devel
mailing list