[voikko] vvfst-morfologia ja Sukija, tilastoa

Hannu Väisänen hannu.vaisanen at uef.fi
Wed May 15 13:50:10 EEST 2013


Suomi-Malagan Sukija-versio tunnistaa testiaineistostani
noin 3,3 miljoonaa sanaa (kun jokainen taivutusmuoto lasketaan eri
sanaksi). Näistä sanoista vvfst-morfologia tunnistaa 90,6 prosenttia.
Aika hyvin.

Olen generoinut vvfst-morfologiaan muutamia yleisiä kirjoitusvirheitä ja
vanhoja kirjoitusasuja ja taivutusmuotoja (esim. kirjottaa, symbooli,
herttu(o)iden. Tämä versio tunnistaa 2769 sanaa (tai 0,08%) enemmän
sanoja (taivutusmuotoja) kuin pelkkä vvfst.



More information about the voikko mailing list