[voikko] Raaka voima lähestymistapa

Harri Pasanen harri at mpaja.com
Wed May 6 14:07:06 EEST 2015


On 06/05/2015 11:51, Sami Liedes wrote:
> On Wed, May 06, 2015 at 09:50:22AM +0200, Harri Pasanen wrote:
>> >Hei,
>> >
>> >Onkohan kukaan yrittänyt käyttää suomenkielen oikolukuun ns. big-data
>> >menetelmää?
>> >Esim. englannin oikoluku on siten suht. triviaalia, tunnettuja sanoja kun on
>> >suuruusluokkaa 100000.  Esimerkiksihttp://norvig.com/spell-correct.html
>> >esittää yksinkertaisen algoritmin tätä lähestymistapaa käyttäen.
> Ongelma lienee se, että oikoluku ei pelkisty kaikkien laillisten
> sanojen hyväksymiseen: Kaikkia laillisia sanoja on suomessa hyvin
> paljon, ja suurin osa niistä olisi kuitenkin virheitä tekstissä.
> Lisäksi varmasti monissa lauseissa esiintyy harvinaisten sanojen
> taivutusmuotoja, joita ehkä kukaan ei ole edes koskaan ennen käyttänyt
> mutta jotka ovat silti täysin laillisia (yhdestä suomen kielen sanasta
> voinee kuitenkin tyypillisesti muodostaa tuhansia erilaisia muotoja).
>
> Oikeastaan siis oikoluvun tehtävä ei ole vastata kysymykseen "voisiko
> tämä sana olla jossain kontekstissa laillinen", vaan "onko tässä
> kirjoitusvirhe vähintään todennäköisyydellä p". Väitän siis, että
> oikoluku on probabilistista, ja joskus lailliset harvinaiset sanat
> kannattaa jättää tarkoituksella hyväksymättä sen vuoksi, että ne ovat
> kuitenkin todennäköisesti virheitä.

"Jos raaka voima ei riitä, sitä ei ole riittävästi", kuten salilla oli 
tapana heittää...

Todennäköisyyksillähän tässä pelataan, ja mitä enemmän aineistoa sitä 
tarkempia ennusteita.  Eli kokonaisen lauseen oikeellisuuden 
todennäköisyyttäkin voi varmaan ennustaa siinä esiintyvien sanojen 
perusteella.  Se tosin kasvattaa  hakuavaruutta aika lailla, että voi 
olla vielä turhan raskasta.

Lähinnä tässä nyt hain kuitenkin yksittäisen sanan oikeinkirjoituksen 
tarkistusta.
Vaan pitääpä joskus kokeilla mitenkä tämä toimisi.  Lähestymistavan iso 
etu on kieliriippumattomuus, jos vain lähdeaineistoa kielestä on tarjolla.

t. Harri P.




More information about the voikko mailing list