[voikko-devel] Soinniton ja soinnillinen konsonantti korjausehdotuksissa
Harri Pitkänen
hatapitk at cc.jyu.fi
Sat Jan 6 14:54:38 EET 2007
On Saturday 06 January 2007 13:34, Teemu Likonen wrote:
> Olen "kitissyt" ennenkin korjausehdotusten parantamiseksi, mutta
> vastassa on usein käytettävissä oleva prosessoriaika. Tuli nyt mieleen
> soinnillisen ja soinnittoman konsonantin sekä joidenkin äänteellisesti
> samanlaisten konsonanttien huomioiminen ehdotuksissa.
>
> Soinnittomat konsonantit ovat suomalaiselle tutumpia ja soinnilliset
> usein ääntyvätkin puheessa lähes soinnittomina. Soinnillisuudella on
> tapana heikentyä. Tämä johtaa joskus siihen, että kirjoituksessa
> käytetään virheellisesti soinnitonta konsonanttia,
> esimerkiksi "obligaatio ~ *oplikaatio; äidin ~ *äitin". Tällä hetkellä
> Voikko ei osaa ehdottaa soinnillista versiota.
>
> Vieraskielisissä sanoissa hyödyllinen voi joskus olla c:n ja k:n sekä
> c:n ja s:n muunnos molempiin suuntiin, esimerkiksi "Nicaragua ~
> *Nikaragua; Oseania ~ *Oceania".
Lisäsin muunnokset t->d, k->c, c->s ja s->c. Muut olivatkin jo olemassa.
Korjaus "oplikaatio" -> "obligaatio" on hankala siksi, että siinä menee kaksi
kirjainta väärin, ja tällaisia ei yleisesti ottaen ole mahdollista korjata
kun on aikaa testata ainoastaan 250 erilaista merkkijonoa. Nyt kuitenkin
syntyy tällaista:
W: äitin
S: äidin
S: äiti
S: äitiin
S: äitini
S: äitein
W: Nikaragua
S: Nicaragua
W: Oceania
S: Oseania
Mainostetaan vielä sen verran, että tein libvoikkoon vuoden vaihteessa
muutamia muitakin parannuksia. Sanajaon lisäämistä yhdysviivan viereen ei
enää ehdoteta. Eli kun libvoikko 1.2 ehdotti
W: kerros-talo
S: kerros- talo
S: kerros -talo
S: kerrostalo
S: Keros-talo
S: kerrot-Salo
ehdottaa SVN-versio paljon järkevämmin
W: kerros-talo
S: kerrostalo
S: Keros-talo
Toinen parannus on erityinen optiseen tekstintunnistukseen soveltuva
korjausehdotusmoodi (ideasta kiitos Asmo Koskiselle, joka syksyllä toi esille
ajatuksen Voikon käytöstä skannattujen tekstien oikoluvussa). Esimerkiksi
kirjaimet i ja l menevät helposti sekaisin skannatussa tekstissä, alla
esimerkki siitä kuinka huima parannus saadaan kun tämä huomioidaan
korjausehdotuksia laadittaessa:
Tavalliset korjausehdotukset:
voikkospell -s
klssa
W: klssa
kaia
W: kaia
S: kai
S: kaita
S: kania
S: kalia
S: kaima
OCR-ehdotukset:
voikkospell ocr_suggestions=1 -s
klssa
W: klssa
S: kissa
kaia
W: kaia
S: kala
Lopuksi Teemun toive selventävien yhdysviivojen hyväksymisestä on ainakin
osittain toteutettu libvoikon SVN-versiossa. Laitan lähdekoodipaketin
testiasennuslähteeseemme ensi viikolla.
Harri
More information about the devel
mailing list