[voikko] Kadonnut "siviilioikeustapauksille"

Harri Pitkänen hatapitk at iki.fi
Thu Sep 17 21:17:22 EEST 2009


On Thursday 17 September 2009 19:44:30 Teemu Likonen wrote:
>     * Reactivate morphology pruning rule that got accidentally
>       disabled when we switched to internal Malaga implementation.

Jaa, tämä taitaa johtua siitä, että käytät debug-versiota sanastosta? Ongelman 
syynä on se, että debug-versiossa tämän sanan analysointiprosessi on liian 
monimutkainen. Tuossa mainitsemassasi revisiossa otettiin uudelleen käyttöön 
heuristiikka, jonka tehtävänä on pienentää analyysin pahinta mahdollista 
aikavaativuutta sanan pituuden suhteen eksponentiaalisesta lineaariseksi. 
Tämä tapahtuu rajaamalla analyysipuun suurinta mahdollista leveyttä, eli jos 
rinnakkaisia analyyseja tulee liikaa, osa niistä leikataan pois.

Debug-versiossa rinnakkaisia muotoja voi olla enemmän kuin perusversiossa. 
Tämä johtuu siitä, että käännösaikana perusversiossa on käytössä optimointi, 
joka yhdistää riittävän "samanlaisia" tietueita yhdeksi tietueeksi, vaikka 
alkuperäiset olisivat peräisin eri tietueista Joukahaisessa. Debug-versiossa 
tämä optimointi ei toimi yhtä tehokkaasti, koska yhdistämistä Joukahaisten 
tietueiden välillä ei voida tehdä.

Tämän kyseisen sanan kohdalla voi ongelmaa yrittää ratkaista tutkimalla, onko 
Joukahaisessa ylimääräisiä tuplatietueita, joita voisi poistaa. Tulevia 
versioita varten voimme myös hiukan kasvattaa ajonaikaisen analyysipuun 
enimmäisleveyttä, mutta tällaista muutosta en halua nyt julkaistavaan 
versioon enää tehdä.

Tuon yllä kuvatun käännösaikaisen optimoinnin toiminnan voi havaita 
vertaamalla Suomi-malagan käännösprosessin lopussa tulostettavia tilastoja. 
Debug-versiossa tulostetaan
  Source entries read:     34735
  Intermediates generated: 145258
  Allomorphs generated:    137385
Perusversiossa taas tulostetaan
  Source entries read:     34735
  Intermediates generated: 145258
  Allomorphs generated:    135539
Kaksi ensimmäistä lukua ovat siis samat, mutta viimeinen "allomorphs 
generated" on lähes kaksi tuhatta pienempi perusversiossa. Näin monta 
tietuetta jää siis yhdistämättä sanastoon liitettävän lisäinformaation takia.

Harri



More information about the voikko mailing list