[voikko] Kokeellinen lisätarkistus Webvoikkoon

Harri Pitkänen hatapitk at iki.fi
Mon Mar 3 23:18:16 EET 2014


Lauantaina ilmestyneessä Helsingin Sanomien kuukausiliitteessä (sivulla 
24) kirjoitettiin hassuista kielivirheistä, joita teksteihin voi jäädä, 
jos oikoluku tehdään pelkästään tietokoneella. Kirjoittaja oli testannut 
Microsoft Wordin oikolukua ja Webvoikkoa, jotka molemmat hyväksyvät 
sanat "asiakakan" ja "kuukusimaksulle". Näitä sanoja esiintyykin useissa 
yhteyksissä lakiesityksiä myöten.

Tätä puutetta ei tietenkään voi koneellisesta oikoluvusta täysin 
poistaa. Kuitenkin Voikkoa kehittäessäni olen huomannut, että oikoluvun 
hyväksymillä lyöntivirheillä on usein samoja tunnusomaisia piirteitä. 
Monet niistä ovat moniosaisia yhdyssanoja (erityisesti 3- tai 
4-kirjaimisista osista koostuvia) tai sisältävät harvoin käytettyjä 
taivutuspäätteitä. Ongelmaa voisikin lähestyä siten, että 
oikein/väärin-luokittelun sijasta tekstissä olevista sanoista 
etsittäisiin ne, joissa ilmenee näitä epäilyttäviä piirteitä, ja 
pahimmat tapaukset korostettaisiin taustavärillä. Näihin sanoihin 
kirjoittaja voisi oikolukuvaiheessa kiinnittää erityistä huomiota.

Tällainen toiminto on nyt lisätty Webvoikkoon. Korostan kuitenkin, että 
tämä on ensimmäinen raakaversio, ja taustalla oleva algoritmi hyvin 
yksinkertainen. Se ei vielä huomioi taivutuspäätteitä, ainoastaan sanan 
yhdysosarakenteen monimutkaisuuden sekä sen, esiintyykö sana tekstissä 
useammin kuin kerran. Näistä HS:n esimerkkisanoista vain 
"kuukusimaksulle" merkitään tällä algoritmilla epäilyttäväksi.

Koska Webvoikko on nykyään verrattain suosittu palvelu, en halunnut 
ottaa tällaista raakiletoimintoa oletusarvoisesti käyttöön. Sitä pääsee 
testaamaan avaamalla sivun 
http://joukahainen.puimula.org/webvoikko/spell ja antamalla selaimen 
JavaScript-konsolissa komennon

   checkForMaybeErrors = true;

Toiminnossa olevat puutteet käyvät ilmi nopeasti, jos sitä testaa 
hiukankin pidemmillä teksteillä. Tässä vaiheessa en osaa sanoa, saako 
siitä aidosti hyödyllistä järkevällä kehityspanoksella, mutta asiaa 
kannattanee tutkia tarkemmin.

Harri


More information about the voikko mailing list