[voikko] Tekstin luettavuuden mittaus
Harri Pitkänen
hatapitk at iki.fi
Thu Jan 20 21:41:59 EET 2011
Mahtaisiko kenelläkään olla tarvetta tekstin luettavuuden koneelliselle
arvioinnille? Wordissa on tällainen ominaisuus, toimiiko se suomen kielellä?
LibreOfficen postituslistalla joku joskus kyseli ominaisuuden perään.
Toteutin prototyypinomaisesti yleisimmät englannin kielelle suunnitellut
mittarit (Flesch Reading Ease ja Flesch-Kincaid Grade Level) Pythonilla.
Skripti löytyy SVN:stä (trunk/tools/bin/voikko-readability) jos joku haluaa
kokeilla. Vaatii libvoikon Python-rajapinnan (python-libvoikko Debianissa ja
Ubuntussa).
Tulokset eivät ole mitenkään järkeviä suomen kielellä, mutta algoritmia voisi
ehkä säätää huomioimaan sanojen ja taivutusmuotojen yleisyyden siinä määrin
kuin ne ovat meillä tiedossa. Helsingin Sanomien verkkosivuilta poimitulle
jutulle "Krakkerit varastivat 28 miljoonan euron edestä päästöoikeuksia" tuli
tällaiset tilastot:
Language used for processing: fi
Number of sentences: 14
Number of words: 158
Number of syllables: 500
Number of characters (without punctuation): 1301
Number of characters (with punctuation): 1330
Flesch Reading Ease: -72.3535189873
Flesch-Kincaid Grade Level: 26.1532007233
En onnistunut löytämään mistään valmista tutkimustietoa tällaisten menetelmien
soveltamisesta suomen kielelle. Kuvittelisin, että joku olisi joskus tutkinut
asiaa. Mikäli tiedätte jotain tällaisesta tutkimuksesta, kuulisin mielelläni.
Harri
PS. Lingsoftin www-sivujen etusivulla on tutun oloinen "Ehdota sanaa"-lomake.
Ovatkohan kopioineet idean Joukahaisesta, en ole tuota aikaisemmin siellä
huomannut :)
More information about the voikko
mailing list