[voikko-devel] Voikko ja ocr-ohjelmat

Harri Pitkänen hatapitk at cc.jyu.fi
Sun Aug 20 21:11:11 EEST 2006


On Sunday 20 August 2006 20:34, Asmo Koskinen wrote:
> Terve,
>
> onko mahdollista joskus tulevaisuudessa kytkeä Voikko suoraan johonkin
> ocr-ohjelmaan?
>
>
> Törmäsin tällaiseen lauseeseen ocre-ohjelman sivulla; ocre taitaa olla
> aika vaiheessa vielä (v.0.023):
>
> "This version:
>
> ocre begins to use a dictionary (lib aspell). By now only with english
> and spanish text."
>
> http://lem.eui.upm.es/ocre.html
>
>
> KDE:n Kooka-ohjelman manuaali kertoo, että Kookan tunnistamat sanat
> avataan Kateen, jota Voikko jo tukee tmispellin kautta. En ole tuota
> vielä kokeillut, pitää vielä tänään.
>
> Ystävällisin terveisin Asmo Koskinen.

Ajatus on kiinnostava, ja varmasti täysin toteuttamiskelpoinen. Ocre:n 
lähdekoodissa valitettavasti funktioiden nimet ja kommentit ovat espanjaksi, 
mikä on minulle vähän turhan vieras kieli. En siis osannut tuosta päätellä, 
yrittääkö ocre lukea sanastoa suoraan vain käyttää oikolukua ihan "normaaliin 
tapaan". Epäilen jälkimmäistä, ainakin niin voisi arvella tuon yllä olevan 
ilmaisun (lib aspell) perusteella. Jos näin on, niin kannattaisi kai 
suostutella ocre:n tekijä käyttämään libenchantia aspellin sijaan, jolloin 
homma toimisi Voikonkin kanssa suoraan.

Joka tapauksessa on mahdollista saada aikaan paljon parempaa tulosta jos 
OCR-ohjelma on liitetty suoraan oikolukuun, kuin oikolukemalla ohjelman 
tuottamaa tekstiä jälkikäteen. Tämä siksi, että OCR-ohjelma voi verrata 
oikolukuohjelman antamia ehdotuksia käsiteltävän sanan kuvaan ja päätellä 
siitä, mikä niistä on todennäköisimmin oikein. Jälkikäteen esim. Katessa 
tekstiä oikoluettaessa tämä homma jäisi ohjelman käyttäjän tehtäväksi.

Harri



More information about the devel mailing list