[voikko-devel] Isot kirjaimat vaihtuvat pieniksi oikoluvun jälkeen (Ooo2)
Harri Pitkänen
hatapitk at cc.jyu.fi
Mon Aug 21 22:56:31 EEST 2006
On Monday 21 August 2006 13:21, Teemu Likonen wrote:
> Teemu Likonen kirjoitti:
> > Tulee mieleen, että olisiko
> > mahdollista asettaa indikatiivimuodot tärkeämpään asemaan kuin
> > harvinaisemmat modukset ja nominaalimuodot?
>
> Jos tämä on teknisesti mahdollista, niin voin selvittää eri muotojen
> yleisyyksiä. Niitä luulisi löytyvän kirjoista ja netistäkin, koska
> erinäisistä korpuksista on tällaisia laskelmia varmasti tehty.
Jotain tällaista pitää jossain vaiheessa ryhtyä tekemään. Olen kuitenkin
ajatellut, että sitten kun tähän ryhdymme, teemme sen kerralla kunnolla. Eli
lisäämme frekvenssi-informaatiota myös sanastossa oleviin sanoihin ja
kehitämme laskukaavan, joka huomioi sekä sanan (tai yhdyssanan osien)
frekvenssit että johtimien, taivutuspäätteiden ja liitepartikkeleiden
vaikutuksen ja tuottaa jonkinlaisen mittaluvun, jolla korjausehdotuksia voi
arvioida. Nykyinen algoritmi asettaa yhdyssanat muita alempaan asemaan, mutta
mitään muuta informaatiota sillä ei ole käytettävissä ehdotetusta sanasta.
Tietenkin korjausehdotuksissa kaikki tämä on hyödyllistä vasta sitten, kun
Suomi-malaga on niin nopea, että se edes kykenee tuottamaan
ehdotuskandidaatteja riittävän paljon. Optimoinnissa on vielä hommaa
jäljellä, tällä hetkellä Hunspell taitaa olla noin sata kertaa nopeampi :)
Mutta tälle informaatiolle on muutakin käyttöä. Sitä voi vaikkapa käyttää
äärimmäisten epätodennäköisten yhdyssanojen hylkäämiseen kokonaan, ja sanojen
frekvenssi-informaation avulla Joukahaisesta voisi tuottaa tarvittaessa
suppeampia sanastoja joista harvinaisimmat sanat puuttuisivat kokonaan. Tämä
voi olla joissain sovelluksissa hyödyllistä.
Nämä ovat kuitenkin pitemmän aikavälin suunnitelmia, ensin on saatava edes
perusteet kohdalleen. Siinäkin on vielä työtä jäljellä.
Harri
More information about the devel
mailing list