[voikko] Raaka voima lähestymistapa

Sami Liedes sami.liedes at iki.fi
Wed May 6 12:51:15 EEST 2015


On Wed, May 06, 2015 at 09:50:22AM +0200, Harri Pasanen wrote:
> Hei,
> 
> Onkohan kukaan yrittänyt käyttää suomenkielen oikolukuun ns. big-data
> menetelmää?
> Esim. englannin oikoluku on siten suht. triviaalia, tunnettuja sanoja kun on
> suuruusluokkaa 100000.  Esimerkiksi http://norvig.com/spell-correct.html
> esittää yksinkertaisen algoritmin tätä lähestymistapaa käyttäen.

Ongelma lienee se, että oikoluku ei pelkisty kaikkien laillisten
sanojen hyväksymiseen: Kaikkia laillisia sanoja on suomessa hyvin
paljon, ja suurin osa niistä olisi kuitenkin virheitä tekstissä.
Lisäksi varmasti monissa lauseissa esiintyy harvinaisten sanojen
taivutusmuotoja, joita ehkä kukaan ei ole edes koskaan ennen käyttänyt
mutta jotka ovat silti täysin laillisia (yhdestä suomen kielen sanasta
voinee kuitenkin tyypillisesti muodostaa tuhansia erilaisia muotoja).

Oikeastaan siis oikoluvun tehtävä ei ole vastata kysymykseen "voisiko
tämä sana olla jossain kontekstissa laillinen", vaan "onko tässä
kirjoitusvirhe vähintään todennäköisyydellä p". Väitän siis, että
oikoluku on probabilistista, ja joskus lailliset harvinaiset sanat
kannattaa jättää tarkoituksella hyväksymättä sen vuoksi, että ne ovat
kuitenkin todennäköisesti virheitä.

Jännittäviä yhdyssanoja muodostamalla saadaan jos jonkinlaista sanaa,
joka periaatteessa voisi olla kuviteltavissa sanaksi. Esimerkiksi
voikko hyväksyy Raamatussa erään kaupungin asukkaita tarkoittavan
sanan "suutelahilaiset", koska suutelahila on ihan mahdollinen suomen
kielen sana. Kontekstin paremmin huomioiva oikoluin saattaisi
kuitenkin pitää tätä todennäköisemmin virheellisenä jäsennyksenä,
koska suu, tela ja hila esiintynevät harvoin samassa yhteydessä.

	Sami
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 819 bytes
Desc: Digital signature
URL: <http://lists.puimula.org/pipermail/voikko/attachments/20150506/13ec5f0d/attachment.sig>


More information about the voikko mailing list