[voikko] Raaka voima lähestymistapa
Harri Pasanen
harri at mpaja.com
Wed May 6 10:50:22 EEST 2015
Hei,
Onkohan kukaan yrittänyt käyttää suomenkielen oikolukuun ns. big-data
menetelmää?
Esim. englannin oikoluku on siten suht. triviaalia, tunnettuja sanoja
kun on suuruusluokkaa 100000. Esimerkiksi
http://norvig.com/spell-correct.html esittää yksinkertaisen algoritmin
tätä lähestymistapaa käyttäen.
Uteliaisuus vei voiton ja tutkailin asiaa sen verran että latasin
suomenkielisen wikipedian sanaston tietokantaan. Erillisiä sanoja oli
suuruusluokkaa 2 miljoonaa, kun pudotti ne pois jotka esiintyivät vain
kerran, jäljelle jäi noin miljoona sanaa. Vaikka kyseessä siis
kertaluokkaa enemmän sanoja kuin englannissa, ei tämä nykykoneille ole
mitenkään mahdoton aineisto. Tuossa joukossa on varmasti jäljellä
paljon erisnimiä, vieraskielisiä sanoja ja yleisiä kirjoitusvirheitä.
Tämän edemmäksi en vielä ehtinyt, mutta voisin kuvitella että voisi
vaikka toimia näinkin. Onko arvauksia tai tietoa tästä lähestymistavasta?
t. Harri P.
More information about the voikko
mailing list