[voikko-devel] Isot kirjaimat vaihtuvat pieniksi oikoluvun jälkeen (Ooo2)

Harri Pitkänen hatapitk at cc.jyu.fi
Mon Aug 21 22:56:31 EEST 2006


On Monday 21 August 2006 13:21, Teemu Likonen wrote:
> Teemu Likonen kirjoitti:
> > Tulee mieleen, että olisiko
> > mahdollista asettaa indikatiivimuodot tärkeämpään asemaan kuin
> > harvinaisemmat modukset ja nominaalimuodot?
>
> Jos tämä on teknisesti mahdollista, niin voin selvittää eri muotojen
> yleisyyksiä. Niitä luulisi löytyvän kirjoista ja netistäkin, koska
> erinäisistä korpuksista on tällaisia laskelmia varmasti tehty.

Jotain tällaista pitää jossain vaiheessa ryhtyä tekemään. Olen kuitenkin 
ajatellut, että sitten kun tähän ryhdymme, teemme sen kerralla kunnolla. Eli 
lisäämme frekvenssi-informaatiota myös sanastossa oleviin sanoihin ja 
kehitämme laskukaavan, joka huomioi sekä sanan (tai yhdyssanan osien) 
frekvenssit että johtimien, taivutuspäätteiden ja liitepartikkeleiden 
vaikutuksen ja tuottaa jonkinlaisen mittaluvun, jolla korjausehdotuksia voi 
arvioida. Nykyinen algoritmi asettaa yhdyssanat muita alempaan asemaan, mutta 
mitään muuta informaatiota sillä ei ole käytettävissä ehdotetusta sanasta.

Tietenkin korjausehdotuksissa kaikki tämä on hyödyllistä vasta sitten, kun 
Suomi-malaga on niin nopea, että se edes kykenee tuottamaan 
ehdotuskandidaatteja riittävän paljon. Optimoinnissa on vielä hommaa 
jäljellä, tällä hetkellä Hunspell taitaa olla noin sata kertaa nopeampi :) 
Mutta tälle informaatiolle on muutakin käyttöä. Sitä voi vaikkapa käyttää 
äärimmäisten epätodennäköisten yhdyssanojen hylkäämiseen kokonaan, ja sanojen 
frekvenssi-informaation avulla Joukahaisesta voisi tuottaa tarvittaessa 
suppeampia sanastoja joista harvinaisimmat sanat puuttuisivat kokonaan. Tämä 
voi olla joissain sovelluksissa hyödyllistä.

Nämä ovat kuitenkin pitemmän aikavälin suunnitelmia, ensin on saatava edes 
perusteet kohdalleen. Siinäkin on vielä työtä jäljellä.

Harri



More information about the devel mailing list