[voikko-devel] Astevaihteluluokkien tarkistus, yhdyssanat
Harri Pitkänen
hatapitk at cc.jyu.fi
Sun Mar 25 20:59:11 EEST 2007
On Sunday 25 March 2007 19:32, Teemu Likonen wrote:
> Voihan sanakirjalekseemit tietysti lisätä omiksi tietueikseen, mutta
> siihen olisi hyvä olla jokin automaattinen keino, jos ajatusta haluaa
> järjestelmällisesti toteuttaa. Jos sanan yleisyysaste on tärkeä
> muuttuja, monet johdokset täytyy irrottaa kantasanastaan ja laittaa
> sanastoon erikseen.
Totta, ei tähän kannata systemaattisesti ryhtyä ennen kuin on selvää, miten
asia helpoimmin onnistuisi ja mitä hyötyä koko hommasta olisi. Luulen
kuitenkin, että kieliopin tarkistus vaatii jo yleisimpien yhdyssanojen
käsittelemistä erikseen, joten jossain vaiheessa tähän on varmasti palattava.
Yksi idea, jota olen mielessäni pyöritellyt, menisi suunnilleen näin:
- Kehitetään järkevältä tuntuva matemaattinen malli johdosten ja
automaattisesti muodostettujen yhdyssanojen yleisyysluokan arvioimiseksi.
Esimerkiksi, jos sanan a yleisyysluokka on F(a) ja sanan b yleisyysluokka
F(b), niin yhdyssanan ab yleisyysluokka voisi olla
F(a b) = max(F(a), F(b)) + C1 * min(F(a), F(b)) + C2
ja sanan a inen-johdoksen yleisyysluokka
F(a "inen") = F(a) + C3
(samoin muille johdoksille, jokaiselle oma vakio)
- Mallinnetaan samaan tapaan sanojen taivutusmuotojen esiintymistiheyttä, tai
etsitään jostain tähän valmista tutkimustietoa.
- Rakennetaan jollain menetelmällä laajahko kirjoitetun suomen sanojen
taajuuslista. Voidaan myös käyttää Kainosta löytyvää listaa, jos sen käyttö
tällaiseen tarkoitukseen on sallittua eikä lista tunnu liian vanhalta. Mutta
luulisin, että hyviin tuloksiin voi päästä omatekoisillakin listoilla, jos
niitä vain käytetään oikein.
- Määritetään oman mallimme tuntemattomat vakiot C1, C2, ..., Cn sovittamalla
laskennalliset taajuudet kokeellisen taajuuslistan antamiin lukuihin.
- Etsitään kokeellisesta taajuuslistasta ne sanamuodot, joiden taajuus eniten
poikkeaa laskennallisista luvuista, ja korjataan näiden tiedot Joukahaiseen.
Tässä vaiheessa löydämme myös ne yhdyssanat, jotka ovat merkittävästi
yleisempiä kuin niiden laskennallisesti pitäisi olla.
Tällaisesta mallista voisi olla jo lähiaikoina hyötyä oikoluvun
korjausehdotusten laadun parantamisessa. Muilta osin tämä ei nyt vielä taida
olla erityisen ajankohtaista. Sitä ennen ei kuitenkaan ole tarpeen poistaa
sellaisia sanoja, joiden voi olettaa suurella todennäköisyydellä nousevan
esiin tällaisessa analyysissä.
Harri
More information about the devel
mailing list