[voikko] Tekstin luettavuuden mittaus

Jukka K. Korpela jkorpela at cs.tut.fi
Sun Feb 20 10:45:40 EET 2011


Huomasin, että tammikuussa oli pari viestiä tekstin luettavuuden 
mittauksesta:
http://lists.puimula.org/pipermail/voikko/2011-January/001412.html

Osmo A. Wiio kehitteli 1970-luvulla luettavuusmittareita suomen kielelle. 
Kun joitakin vuosia sitten keskustelin aiheesta hänen kanssaan, hän piti 
mittareita hyvin käyttökelpoisina ja sanoi (muistaakseni) suunnilleen niin, 
että eipä myöhemminkään ole kukaan kehittänyt parempia ja että jostain 
syystä ohjelmistonvalmistajat eivät ole olleet kiinnostuneita liittämiin 
mittareita ohjelmiinsa.

Syynä saattaa olla se, että mittarien laskeminen on teknisesti vähän 
vaativampaa kuin yksinkertaisten, merkki- ja sanamääriin perustuvien 
mittarien. Wiion mittareissa on mukana ainakin tavurakenne ja sanaluokat. 
Tämän yhdistäminen ohjelmiin, joissa on englantia varten tehtyjä mittareita, 
on ilmeisesti ollut työlästä. Mutta nykyisin voisi kai olla toisin.

Minulla on jossain kopioita Wiion teksteistä, jotka käsittelevät mittareita, 
mutta eräästä diplomityöstä löysin seuraavan viitteen, jonka kautta löytyy 
ehkä uusin tieto (viite tässä kirjoitusasultaan korjattuna):
Wiio, O. A.: Viestinnän perusteet. 5., uudistettu painos. Weilin + Göös, 
Espoo
1989. 291 s.

Diplomityö on
http://media.tkk.fi/GTTS/Suomi/dt&raportit/DI_J_Haataja.pdf
ja sen mukaan Wiion mittareista yksinkertaisin olisi

2,7 + 0,3 × PS

missä PS = pitkien sanojen (perusmuodossa vähintään 4 tavua) määrä sadan 
sanan otoksessa, ja tämä antaisi estimaatin luokkatasolle peruskoulun 
luokkina 1 - 12.

(Mittari siis edellyttää paitsi sanojen jäsentämistä tavuihin myös 
perusmuodon tunnistamista. En muista, sisältyykö tähän vielä 
omistusliitteiden kuten -nsa ja liitepartikkelien kuten -kin poisto - 
luullakseni sisältyy. Mutta esimerkiksi siis "matkustettiin" ei siis ole 
tässä yhteydessä pitkä sana, vaikka siinä on 4 tavua, sillä perusmuodossa 
"matkustaa" on vain 3 tavua.)

Pelkästään monitavuisten sanojen osuuteen perustuva mittari voi vaikuttaa 
alkeelliselta, eikä se ehkä olekaan Wiion mittareista paras, mutta kyllä 
senkin on tutkittu ennustavan tekstin vaikeutta. Käytännössä tähän varmaan 
vaikuttaa paitsi pitkien sanojen vaikea jäsennettävyys myös se, että pitkiä 
sanoja tyypillisesti esiintyy teksteissä, jotka ovat muutenkin raskaita, 
kuten hallinnon kielessä.

Sanan tavumäärä ei ole suomen kielessä ihan ongelmaton mitta, etenkin ensi 
tavua jäljempänä olevien i-, u- ja y-loppuisten vokaaliyhdistelmien osalta 
(onko sanassa "vapauden" kolme vai neljä tavua?). Sen sijaan suomen 
automaattisen tavutuksen suurin ongelma, yhdysosien rajan tunnistaminen, ei 
ole tässä niin suuri ongelma kuin voisi luulla - sanassa "autonostaja" on 
yhtä monta tavua, jäsennettiinpä se "auton-ostaja" tai "auto-nostaja".

-- 
Yucca, http://www.cs.tut.fi/~jkorpela/ 




More information about the voikko mailing list