[voikko] Raaka voima lähestymistapa

Sami Liedes sami.liedes at iki.fi
Wed May 6 18:08:26 EEST 2015


On Wed, May 06, 2015 at 05:56:12PM +0300, Harri Pitkänen wrote:
> Sen verran voin tästä kertoa, että itse en ole kokeillut asiaa, mutta 
> keskustelin hiljattain erään henkilön kanssa, joka on vastaavaa asiaa 
> pohtinut. Tarkalleen ottaen hänellä oli ajatuksena käyttää suurempaakin 
> sanastoa ja tietyntyyppistä algoritmia, jolla aineiston saa pakattua 
> kuluttajakäyttöön sopivaan kokoon.

Aineistopohjainen lähestymistapa, jota minä olen pohtinut on
sellainen, että sanat edelleen analysoidaan morfologisesti, mutta
niiden oikeellisuusarvoon vaikuttaa ympäröivät sanat. Idea siis se,
että ei palauteta vain yhtä bittiä, oikein/väärin, vaan jokin
todennäköisyysarvio siitä, miten uskottavasti tämä sana on oikein.
Oikoluettaessa sitten vaan käytetään jotain kynnystä ja korostetaan
sanat, joiden arvioidaan olevan riittävän todennäköisesti
virheellisiä.

Esimerkiksi sana "potka" voi tarkoittaa ruhon osaa, tai se voi olla
väärin kirjoitettu "potkia". Jos sen lähellä esiintyy sellaisia sanoja
kuin "sika", "ruho" ja "lapa", todennäköisyys että kirjoittaja todella
tarkotti ruhon osaa kasvaa. Toki analyysia voisi tehdä niinkin päin,
että jos kontekstissa esiintyvät sanat "lyödä", "hakata" ja "purra",
on entistä todennäköisempää, että kyseessä on väärin kirjoitettu
"potkia". Tämän sanojen yhdessäesiintyvyysmatriisin voi laskea
koulutusaineistosta (ja sen voi tallentaa tiiviisti siten, että
tallenetaan tieto vain riittävän usein yhdessä esiintyvistä sanoista,
jolloin suurin osa matriisista on nollaa).

On vaan niin monta muutakin projektia, että en taida päästä tähän
koskaan :-)

	Sami
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 819 bytes
Desc: Digital signature
URL: <http://lists.puimula.org/pipermail/voikko/attachments/20150506/5506ac5e/attachment-0001.sig>


More information about the voikko mailing list