[hunspell-fi-devel] Uusia taivutusluokkia

Harri Pitkänen hatapitk at cc.jyu.fi
Fri Nov 11 22:10:58 EET 2005


Lisäsin kolme uutta taivutusluokkaa: subst-si1, subst-si2 ja subst-si3. Näihin 
meni noin 20 aikaisemmin luokittelematonta substantiivia, nyt 
luokittelemattomia on enää 34. Ei paljon, kun ottaa huomioon että sanastossa 
on yhteensä 3021 substantiivia. Luokituksen kattavuus alkaisi siis tämän 
perusteella lähestyä jo 99 prosenttia, mutta jos valittaisiin täysin 
satunnaisia suomen kielen substantiiveja, niin tilanne ei ehkä olisi aivan 
näin hyvä.
Muutenkin sanaston koko on kaksinkertaistunut viimeisen kahden viikon aikana, 
eli Jarno ja Reijo ovat tässä ajassa keränneet noin 2000 sanaa. Sanoisin, 
että aika hyvä tulos näin pieneltä porukalta. Ei Soikon perussanastossakaan 
ole kuin noin 100000 sanaa.

Hiukan mielenkiintoisia arvoita: meillä on noin 3000 substantiivia, joista 
jokainen taipuu yli 20 muodossa kun otetaan huomioon sijamuodot yksikössä ja 
monikossa. Useimpiin muotoihin liittyy lisäksi 6 posessiivisuffiksia (monesti 
enemmänkin, koska voidaan sanoa sekä "taloaan" että "taloansa".) Näihin vielä 
lisäksi liitpartikkeliyhdistelmiä, sanotaan nyt että 5 (on niitä enemmänkin.) 
Siis 3000*20*6*5 = 1 800 000 substantiivimuotoa! Toisaalta Myspellin unmunch 
löytää Debianin suomenkielisestä Myspell-sanastosta 1 363 487 eri 
taivutusmuotoa. Tuntuu itsekin hiukan vaikealta uskoa tätä tulosta, mutta 
saattaa todellakin olla niin, että ainakin verrattuna tiettyihin Myspellin 
konfiguraatioihin meidän sanastomme on jo laajempi, mutta tämä laajuus on 
peräisin siitä että tunnistamme suuren joukon harvinaisempia taivutusmuotoja, 
joita Myspell ei tunne.

Harri



More information about the devel mailing list