[hunspell-fi-devel] Uusia taivutusluokkia
Harri Pitkänen
hatapitk at cc.jyu.fi
Fri Nov 11 22:10:58 EET 2005
Lisäsin kolme uutta taivutusluokkaa: subst-si1, subst-si2 ja subst-si3. Näihin
meni noin 20 aikaisemmin luokittelematonta substantiivia, nyt
luokittelemattomia on enää 34. Ei paljon, kun ottaa huomioon että sanastossa
on yhteensä 3021 substantiivia. Luokituksen kattavuus alkaisi siis tämän
perusteella lähestyä jo 99 prosenttia, mutta jos valittaisiin täysin
satunnaisia suomen kielen substantiiveja, niin tilanne ei ehkä olisi aivan
näin hyvä.
Muutenkin sanaston koko on kaksinkertaistunut viimeisen kahden viikon aikana,
eli Jarno ja Reijo ovat tässä ajassa keränneet noin 2000 sanaa. Sanoisin,
että aika hyvä tulos näin pieneltä porukalta. Ei Soikon perussanastossakaan
ole kuin noin 100000 sanaa.
Hiukan mielenkiintoisia arvoita: meillä on noin 3000 substantiivia, joista
jokainen taipuu yli 20 muodossa kun otetaan huomioon sijamuodot yksikössä ja
monikossa. Useimpiin muotoihin liittyy lisäksi 6 posessiivisuffiksia (monesti
enemmänkin, koska voidaan sanoa sekä "taloaan" että "taloansa".) Näihin vielä
lisäksi liitpartikkeliyhdistelmiä, sanotaan nyt että 5 (on niitä enemmänkin.)
Siis 3000*20*6*5 = 1 800 000 substantiivimuotoa! Toisaalta Myspellin unmunch
löytää Debianin suomenkielisestä Myspell-sanastosta 1 363 487 eri
taivutusmuotoa. Tuntuu itsekin hiukan vaikealta uskoa tätä tulosta, mutta
saattaa todellakin olla niin, että ainakin verrattuna tiettyihin Myspellin
konfiguraatioihin meidän sanastomme on jo laajempi, mutta tämä laajuus on
peräisin siitä että tunnistamme suuren joukon harvinaisempia taivutusmuotoja,
joita Myspell ei tunne.
Harri
More information about the devel
mailing list