[voikko] Bugi? Teonsanat ja LiitesanaPi

Hannu Väisänen Hannu.Vaisanen at uef.fi
Fri Oct 10 08:19:08 EEST 2014


to, 2014-10-09 kello 19:38 +0300, Jukka K. Korpela kirjoitti:

> Kysymys on kai siitä, mitä tällaiset sanat todennäköisimmin ovat. 
> Edelleen olen sitä mieltä, että ”kihiseepi” olisi parasta luokitella 
> tunnistamattomaksi sanaksi. Jos ruvetaan arvailemaan, mitä se voisi 
> tarkoittaa, niin useimmiten kai kyse on kirjoitusvirheestä, esimerkiksi 
> piti kirjoittaa ”kihiseepä”. Jos tiedetään, että kyseessä runolliseksi 
> tarkoitettu tyyli, niin sitten voisi arvata, että on tarkoitettu sanaa, 
> joka nykykielessä on ”kihisee”.

Tiedostojen indeksoinnin kannalta ei ole väliä, onko "kihiseepi" oikeaa
vanhaa kieltä vai kirjoitusvirhe ("kihiseepä"), koska molempien
perusmuoto on "kihistä".

Toki nämä muodot eivät ole kovin yleisiä. Minulla on 5488640 testisanaa
(taivutusmuotoa), muun muassa suomenkielinen Wikpedia (*), ja
kihiseepi-tyyppejä (punoopi yms) niistä on 762.

(*) Vaikka siinä on turhan paljon vieraskielisiä erisnimiä, joita ei
tarvittaisi suomen kielen testiaineistossa.




More information about the voikko mailing list