[voikko-devel] Soinniton ja soinnillinen konsonantti korjausehdotuksissa

Harri Pitkänen hatapitk at cc.jyu.fi
Sat Jan 6 14:54:38 EET 2007


On Saturday 06 January 2007 13:34, Teemu Likonen wrote:
> Olen "kitissyt" ennenkin korjausehdotusten parantamiseksi, mutta
> vastassa on usein käytettävissä oleva prosessoriaika. Tuli nyt mieleen
> soinnillisen ja soinnittoman konsonantin sekä joidenkin äänteellisesti
> samanlaisten konsonanttien huomioiminen ehdotuksissa.
>
> Soinnittomat konsonantit ovat suomalaiselle tutumpia ja soinnilliset
> usein ääntyvätkin puheessa lähes soinnittomina. Soinnillisuudella on
> tapana heikentyä. Tämä johtaa joskus siihen, että kirjoituksessa
> käytetään virheellisesti soinnitonta konsonanttia,
> esimerkiksi "obligaatio ~ *oplikaatio; äidin ~ *äitin". Tällä hetkellä
> Voikko ei osaa ehdottaa soinnillista versiota.
>
> Vieraskielisissä sanoissa hyödyllinen voi joskus olla c:n ja k:n sekä
> c:n ja s:n muunnos molempiin suuntiin, esimerkiksi "Nicaragua ~
> *Nikaragua; Oseania ~ *Oceania".

Lisäsin muunnokset t->d, k->c, c->s ja s->c. Muut olivatkin jo olemassa. 
Korjaus "oplikaatio" -> "obligaatio" on hankala siksi, että siinä menee kaksi 
kirjainta väärin, ja tällaisia ei yleisesti ottaen ole mahdollista korjata 
kun on aikaa testata ainoastaan 250 erilaista merkkijonoa. Nyt kuitenkin 
syntyy tällaista:

W: äitin
S: äidin
S: äiti
S: äitiin
S: äitini
S: äitein

W: Nikaragua
S: Nicaragua

W: Oceania
S: Oseania


Mainostetaan vielä sen verran, että tein libvoikkoon vuoden vaihteessa 
muutamia muitakin parannuksia. Sanajaon lisäämistä yhdysviivan viereen ei 
enää ehdoteta. Eli kun libvoikko 1.2 ehdotti

W: kerros-talo
S: kerros- talo
S: kerros -talo
S: kerrostalo
S: Keros-talo
S: kerrot-Salo

ehdottaa SVN-versio paljon järkevämmin
W: kerros-talo
S: kerrostalo
S: Keros-talo

Toinen parannus on erityinen optiseen tekstintunnistukseen soveltuva 
korjausehdotusmoodi (ideasta kiitos Asmo Koskiselle, joka syksyllä toi esille 
ajatuksen Voikon käytöstä skannattujen tekstien oikoluvussa). Esimerkiksi 
kirjaimet i ja l menevät helposti sekaisin skannatussa tekstissä, alla 
esimerkki siitä kuinka huima parannus saadaan kun tämä huomioidaan 
korjausehdotuksia laadittaessa:

Tavalliset korjausehdotukset:
voikkospell -s
klssa
W: klssa
kaia
W: kaia
S: kai
S: kaita
S: kania
S: kalia
S: kaima

OCR-ehdotukset:
voikkospell ocr_suggestions=1 -s
klssa
W: klssa
S: kissa
kaia
W: kaia
S: kala

Lopuksi Teemun toive selventävien yhdysviivojen hyväksymisestä on ainakin 
osittain toteutettu libvoikon SVN-versiossa. Laitan lähdekoodipaketin 
testiasennuslähteeseemme ensi viikolla.

Harri



More information about the devel mailing list