[voikko-devel] Astevaihteluluokkien tarkistus, yhdyssanat

Sun Mar 25 20:59:11 EEST 2007

On Sunday 25 March 2007 19:32, Teemu Likonen wrote:
> Voihan sanakirjalekseemit tietysti lisätä omiksi tietueikseen, mutta
> siihen olisi hyvä olla jokin automaattinen keino, jos ajatusta haluaa
> järjestelmällisesti toteuttaa. Jos sanan yleisyysaste on tärkeä
> muuttuja, monet johdokset täytyy irrottaa kantasanastaan ja laittaa
> sanastoon erikseen.

Totta, ei tähän kannata systemaattisesti ryhtyä ennen kuin on selvää, miten 
asia helpoimmin onnistuisi ja mitä hyötyä koko hommasta olisi. Luulen 
kuitenkin, että kieliopin tarkistus vaatii jo yleisimpien yhdyssanojen 
käsittelemistä erikseen, joten jossain vaiheessa tähän on varmasti palattava. 
Yksi idea, jota olen mielessäni pyöritellyt, menisi suunnilleen näin:

- Kehitetään järkevältä tuntuva matemaattinen malli johdosten ja 
automaattisesti muodostettujen yhdyssanojen yleisyysluokan arvioimiseksi. 
Esimerkiksi, jos sanan a yleisyysluokka on F(a) ja sanan b yleisyysluokka 
F(b), niin yhdyssanan ab yleisyysluokka voisi olla

F(a b) = max(F(a), F(b)) + C1 * min(F(a), F(b)) + C2

ja sanan a inen-johdoksen yleisyysluokka

F(a "inen") = F(a) + C3

(samoin muille johdoksille, jokaiselle oma vakio)

- Mallinnetaan samaan tapaan sanojen taivutusmuotojen esiintymistiheyttä, tai 
etsitään jostain tähän valmista tutkimustietoa.

- Rakennetaan jollain menetelmällä laajahko kirjoitetun suomen sanojen 
taajuuslista. Voidaan myös käyttää Kainosta löytyvää listaa, jos sen käyttö 
tällaiseen tarkoitukseen on sallittua eikä lista tunnu liian vanhalta. Mutta 
luulisin, että hyviin tuloksiin voi päästä omatekoisillakin listoilla, jos 
niitä vain käytetään oikein.

- Määritetään oman mallimme tuntemattomat vakiot C1, C2, ..., Cn sovittamalla 
laskennalliset taajuudet kokeellisen taajuuslistan antamiin lukuihin.

- Etsitään kokeellisesta taajuuslistasta ne sanamuodot, joiden taajuus eniten 
poikkeaa laskennallisista luvuista, ja korjataan näiden tiedot Joukahaiseen. 
Tässä vaiheessa löydämme myös ne yhdyssanat, jotka ovat merkittävästi 
yleisempiä kuin niiden laskennallisesti pitäisi olla.

Tällaisesta mallista voisi olla jo lähiaikoina hyötyä oikoluvun 
korjausehdotusten laadun parantamisessa. Muilta osin tämä ei nyt vielä taida 
olla erityisen ajankohtaista. Sitä ennen ei kuitenkaan ole tarpeen poistaa 
sellaisia sanoja, joiden voi olettaa suurella todennäköisyydellä nousevan 
esiin tällaisessa analyysissä.

Harri