[voikko] Tekstin luettavuuden mittaus
Jukka K. Korpela
jkorpela at cs.tut.fi
Sun Feb 20 10:45:40 EET 2011
Huomasin, että tammikuussa oli pari viestiä tekstin luettavuuden
mittauksesta:
http://lists.puimula.org/pipermail/voikko/2011-January/001412.html
Osmo A. Wiio kehitteli 1970-luvulla luettavuusmittareita suomen kielelle.
Kun joitakin vuosia sitten keskustelin aiheesta hänen kanssaan, hän piti
mittareita hyvin käyttökelpoisina ja sanoi (muistaakseni) suunnilleen niin,
että eipä myöhemminkään ole kukaan kehittänyt parempia ja että jostain
syystä ohjelmistonvalmistajat eivät ole olleet kiinnostuneita liittämiin
mittareita ohjelmiinsa.
Syynä saattaa olla se, että mittarien laskeminen on teknisesti vähän
vaativampaa kuin yksinkertaisten, merkki- ja sanamääriin perustuvien
mittarien. Wiion mittareissa on mukana ainakin tavurakenne ja sanaluokat.
Tämän yhdistäminen ohjelmiin, joissa on englantia varten tehtyjä mittareita,
on ilmeisesti ollut työlästä. Mutta nykyisin voisi kai olla toisin.
Minulla on jossain kopioita Wiion teksteistä, jotka käsittelevät mittareita,
mutta eräästä diplomityöstä löysin seuraavan viitteen, jonka kautta löytyy
ehkä uusin tieto (viite tässä kirjoitusasultaan korjattuna):
Wiio, O. A.: Viestinnän perusteet. 5., uudistettu painos. Weilin + Göös,
Espoo
1989. 291 s.
Diplomityö on
http://media.tkk.fi/GTTS/Suomi/dt&raportit/DI_J_Haataja.pdf
ja sen mukaan Wiion mittareista yksinkertaisin olisi
2,7 + 0,3 × PS
missä PS = pitkien sanojen (perusmuodossa vähintään 4 tavua) määrä sadan
sanan otoksessa, ja tämä antaisi estimaatin luokkatasolle peruskoulun
luokkina 1 - 12.
(Mittari siis edellyttää paitsi sanojen jäsentämistä tavuihin myös
perusmuodon tunnistamista. En muista, sisältyykö tähän vielä
omistusliitteiden kuten -nsa ja liitepartikkelien kuten -kin poisto -
luullakseni sisältyy. Mutta esimerkiksi siis "matkustettiin" ei siis ole
tässä yhteydessä pitkä sana, vaikka siinä on 4 tavua, sillä perusmuodossa
"matkustaa" on vain 3 tavua.)
Pelkästään monitavuisten sanojen osuuteen perustuva mittari voi vaikuttaa
alkeelliselta, eikä se ehkä olekaan Wiion mittareista paras, mutta kyllä
senkin on tutkittu ennustavan tekstin vaikeutta. Käytännössä tähän varmaan
vaikuttaa paitsi pitkien sanojen vaikea jäsennettävyys myös se, että pitkiä
sanoja tyypillisesti esiintyy teksteissä, jotka ovat muutenkin raskaita,
kuten hallinnon kielessä.
Sanan tavumäärä ei ole suomen kielessä ihan ongelmaton mitta, etenkin ensi
tavua jäljempänä olevien i-, u- ja y-loppuisten vokaaliyhdistelmien osalta
(onko sanassa "vapauden" kolme vai neljä tavua?). Sen sijaan suomen
automaattisen tavutuksen suurin ongelma, yhdysosien rajan tunnistaminen, ei
ole tässä niin suuri ongelma kuin voisi luulla - sanassa "autonostaja" on
yhtä monta tavua, jäsennettiinpä se "auton-ostaja" tai "auto-nostaja".
--
Yucca, http://www.cs.tut.fi/~jkorpela/
More information about the voikko
mailing list