[voikko] Kadonnut "siviilioikeustapauksille"
Harri Pitkänen
hatapitk at iki.fi
Thu Sep 17 21:17:22 EEST 2009
On Thursday 17 September 2009 19:44:30 Teemu Likonen wrote:
> * Reactivate morphology pruning rule that got accidentally
> disabled when we switched to internal Malaga implementation.
Jaa, tämä taitaa johtua siitä, että käytät debug-versiota sanastosta? Ongelman
syynä on se, että debug-versiossa tämän sanan analysointiprosessi on liian
monimutkainen. Tuossa mainitsemassasi revisiossa otettiin uudelleen käyttöön
heuristiikka, jonka tehtävänä on pienentää analyysin pahinta mahdollista
aikavaativuutta sanan pituuden suhteen eksponentiaalisesta lineaariseksi.
Tämä tapahtuu rajaamalla analyysipuun suurinta mahdollista leveyttä, eli jos
rinnakkaisia analyyseja tulee liikaa, osa niistä leikataan pois.
Debug-versiossa rinnakkaisia muotoja voi olla enemmän kuin perusversiossa.
Tämä johtuu siitä, että käännösaikana perusversiossa on käytössä optimointi,
joka yhdistää riittävän "samanlaisia" tietueita yhdeksi tietueeksi, vaikka
alkuperäiset olisivat peräisin eri tietueista Joukahaisessa. Debug-versiossa
tämä optimointi ei toimi yhtä tehokkaasti, koska yhdistämistä Joukahaisten
tietueiden välillä ei voida tehdä.
Tämän kyseisen sanan kohdalla voi ongelmaa yrittää ratkaista tutkimalla, onko
Joukahaisessa ylimääräisiä tuplatietueita, joita voisi poistaa. Tulevia
versioita varten voimme myös hiukan kasvattaa ajonaikaisen analyysipuun
enimmäisleveyttä, mutta tällaista muutosta en halua nyt julkaistavaan
versioon enää tehdä.
Tuon yllä kuvatun käännösaikaisen optimoinnin toiminnan voi havaita
vertaamalla Suomi-malagan käännösprosessin lopussa tulostettavia tilastoja.
Debug-versiossa tulostetaan
Source entries read: 34735
Intermediates generated: 145258
Allomorphs generated: 137385
Perusversiossa taas tulostetaan
Source entries read: 34735
Intermediates generated: 145258
Allomorphs generated: 135539
Kaksi ensimmäistä lukua ovat siis samat, mutta viimeinen "allomorphs
generated" on lähes kaksi tuhatta pienempi perusversiossa. Näin monta
tietuetta jää siis yhdistämättä sanastoon liitettävän lisäinformaation takia.
Harri
More information about the voikko
mailing list