[voikko] Raaka voima lähestymistapa

Harri Pasanen harri at mpaja.com
Wed May 6 10:50:22 EEST 2015


Hei,

Onkohan kukaan yrittänyt käyttää suomenkielen oikolukuun ns. big-data 
menetelmää?
Esim. englannin oikoluku on siten suht. triviaalia, tunnettuja sanoja 
kun on suuruusluokkaa 100000.  Esimerkiksi 
http://norvig.com/spell-correct.html esittää yksinkertaisen algoritmin 
tätä lähestymistapaa käyttäen.

Uteliaisuus vei voiton ja tutkailin asiaa sen verran että latasin 
suomenkielisen wikipedian sanaston tietokantaan.   Erillisiä sanoja oli 
suuruusluokkaa 2 miljoonaa, kun pudotti ne pois jotka esiintyivät vain 
kerran, jäljelle jäi noin miljoona sanaa.   Vaikka kyseessä siis 
kertaluokkaa enemmän sanoja kuin englannissa, ei tämä nykykoneille ole 
mitenkään mahdoton aineisto.  Tuossa joukossa on varmasti jäljellä 
paljon erisnimiä, vieraskielisiä sanoja ja yleisiä kirjoitusvirheitä.  
Tämän edemmäksi en vielä ehtinyt, mutta voisin kuvitella että voisi 
vaikka toimia näinkin.   Onko arvauksia tai tietoa tästä lähestymistavasta?

t. Harri P.




More information about the voikko mailing list