[voikko] ocr_suggestions=n

"Harri Pitkänen" hatapitk at iki.fi
Wed Feb 8 22:28:00 EET 2012


ke 8.2.2012 20:52 Ismo Raitanen kirjoitti:
> Onko niin, että ocr-ehdottaja yrittää korjata ainoastaan yhden merkin
> sanasta? Ja yhden silloinkin, vaikka korjattavat merkit olisivat
> samoja?

Kyllä.

> Miten algoritmi tarkemmin ottaen toimii? "Normaalin" ehdottajan
> mainion kuvauksen jo löysinkin Kesäkoodi-raportista.

Algoritmi on äärimmäisen yksinkertainen. Se kokeilee muuttaa yhden merkin
kerrallaan joksikin toiseksi merkiksi. Ja tämän se tekee vielä niin, että
korvaukset valitaan 109 lähtömerkki-kohdemerkki-parin listalta. Tämä lista
on muodostettu niin, että siihen on valittu toisiaan muistuttavien
kirjainten parit sekä sellaiset parit, joissa ensimmäinen merkki on
alaviiva ja toinen mikä tahansa suomen kielen kirjain (muutama harvinainen
on jätetty pois).

Tähän ei ole ihmeemmin panostettu, koska ominaisuudelle on ollut niin
vähän käyttöä. Kahden merkin korjaukset olisi tuohon helppo kyllä lisätä,
voisin vaikka viikonloppuna sen tehdä.

Harri




More information about the voikko mailing list