[voikko] vvfst-morfologia ja Sukija, tilastoa
Hannu Väisänen
hannu.vaisanen at uef.fi
Wed May 15 13:50:10 EEST 2013
Suomi-Malagan Sukija-versio tunnistaa testiaineistostani
noin 3,3 miljoonaa sanaa (kun jokainen taivutusmuoto lasketaan eri
sanaksi). Näistä sanoista vvfst-morfologia tunnistaa 90,6 prosenttia.
Aika hyvin.
Olen generoinut vvfst-morfologiaan muutamia yleisiä kirjoitusvirheitä ja
vanhoja kirjoitusasuja ja taivutusmuotoja (esim. kirjottaa, symbooli,
herttu(o)iden. Tämä versio tunnistaa 2769 sanaa (tai 0,08%) enemmän
sanoja (taivutusmuotoja) kuin pelkkä vvfst.
More information about the voikko
mailing list