[voikko] Kokeellinen lisätarkistus Webvoikkoon
Harri Pitkänen
hatapitk at iki.fi
Mon Mar 3 23:18:16 EET 2014
Lauantaina ilmestyneessä Helsingin Sanomien kuukausiliitteessä (sivulla
24) kirjoitettiin hassuista kielivirheistä, joita teksteihin voi jäädä,
jos oikoluku tehdään pelkästään tietokoneella. Kirjoittaja oli testannut
Microsoft Wordin oikolukua ja Webvoikkoa, jotka molemmat hyväksyvät
sanat "asiakakan" ja "kuukusimaksulle". Näitä sanoja esiintyykin useissa
yhteyksissä lakiesityksiä myöten.
Tätä puutetta ei tietenkään voi koneellisesta oikoluvusta täysin
poistaa. Kuitenkin Voikkoa kehittäessäni olen huomannut, että oikoluvun
hyväksymillä lyöntivirheillä on usein samoja tunnusomaisia piirteitä.
Monet niistä ovat moniosaisia yhdyssanoja (erityisesti 3- tai
4-kirjaimisista osista koostuvia) tai sisältävät harvoin käytettyjä
taivutuspäätteitä. Ongelmaa voisikin lähestyä siten, että
oikein/väärin-luokittelun sijasta tekstissä olevista sanoista
etsittäisiin ne, joissa ilmenee näitä epäilyttäviä piirteitä, ja
pahimmat tapaukset korostettaisiin taustavärillä. Näihin sanoihin
kirjoittaja voisi oikolukuvaiheessa kiinnittää erityistä huomiota.
Tällainen toiminto on nyt lisätty Webvoikkoon. Korostan kuitenkin, että
tämä on ensimmäinen raakaversio, ja taustalla oleva algoritmi hyvin
yksinkertainen. Se ei vielä huomioi taivutuspäätteitä, ainoastaan sanan
yhdysosarakenteen monimutkaisuuden sekä sen, esiintyykö sana tekstissä
useammin kuin kerran. Näistä HS:n esimerkkisanoista vain
"kuukusimaksulle" merkitään tällä algoritmilla epäilyttäväksi.
Koska Webvoikko on nykyään verrattain suosittu palvelu, en halunnut
ottaa tällaista raakiletoimintoa oletusarvoisesti käyttöön. Sitä pääsee
testaamaan avaamalla sivun
http://joukahainen.puimula.org/webvoikko/spell ja antamalla selaimen
JavaScript-konsolissa komennon
checkForMaybeErrors = true;
Toiminnossa olevat puutteet käyvät ilmi nopeasti, jos sitä testaa
hiukankin pidemmillä teksteillä. Tässä vaiheessa en osaa sanoa, saako
siitä aidosti hyödyllistä järkevällä kehityspanoksella, mutta asiaa
kannattanee tutkia tarkemmin.
Harri
More information about the voikko
mailing list