[voikko] Tekstin luettavuuden mittaus

Harri Pitkänen hatapitk at iki.fi
Thu Jan 20 21:41:59 EET 2011


Mahtaisiko kenelläkään olla tarvetta tekstin luettavuuden koneelliselle 
arvioinnille? Wordissa on tällainen ominaisuus, toimiiko se suomen kielellä? 
LibreOfficen postituslistalla joku joskus kyseli ominaisuuden perään.

Toteutin prototyypinomaisesti yleisimmät englannin kielelle suunnitellut 
mittarit (Flesch Reading Ease ja Flesch-Kincaid Grade Level) Pythonilla. 
Skripti löytyy SVN:stä (trunk/tools/bin/voikko-readability) jos joku haluaa 
kokeilla. Vaatii libvoikon Python-rajapinnan (python-libvoikko Debianissa ja 
Ubuntussa).

Tulokset eivät ole mitenkään järkeviä suomen kielellä, mutta algoritmia voisi 
ehkä säätää huomioimaan sanojen ja taivutusmuotojen yleisyyden siinä määrin 
kuin ne ovat meillä tiedossa. Helsingin Sanomien verkkosivuilta poimitulle 
jutulle "Krakkerit varastivat 28 miljoonan euron edestä päästöoikeuksia" tuli 
tällaiset tilastot:

Language used for processing: fi
Number of sentences: 14
Number of words: 158
Number of syllables: 500
Number of characters (without punctuation): 1301
Number of characters (with punctuation): 1330
Flesch Reading Ease: -72.3535189873
Flesch-Kincaid Grade Level: 26.1532007233


En onnistunut löytämään mistään valmista tutkimustietoa tällaisten menetelmien 
soveltamisesta suomen kielelle. Kuvittelisin, että joku olisi joskus tutkinut 
asiaa. Mikäli tiedätte jotain tällaisesta tutkimuksesta, kuulisin mielelläni.

Harri

PS. Lingsoftin www-sivujen etusivulla on tutun oloinen "Ehdota sanaa"-lomake. 
Ovatkohan kopioineet idean Joukahaisesta, en ole tuota aikaisemmin siellä 
huomannut :)



More information about the voikko mailing list