<div dir="ltr">Näyttikin nyt menevän tuo reilun puolen tunnin jälkeen läpi. Olisi silti ihan kiva jos saisi näitä vähän nopeammin menemään (ehkä pienemmällä muistillakin..)...</div><div class="gmail_extra"><br><div class="gmail_quote">2016-01-06 11:48 GMT+02:00 Teemu Kanstrén <span dir="ltr"><<a href="mailto:tkanstren@gmail.com" target="_blank">tkanstren@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hei,<div><br></div><div> Yritän tässä ajaa Voikon läpi isohkojakin dokumentteja. Käytän Java rajapintaa ja (vielä) libvoikko 3.8 versiota. Isommilla dokumenteille tokenize() funktio näyttää muuttuvan todella hitaaksi. Onko jotain temppuja millä saan tämän toimimaan paremmin? Tai näkyvyyttä mistä tämä johtuu, esim. joku konfiguraatio ongelma.</div><div><br></div><div> Ajelin näitä siis OSX:ssä, libvoikko 3.8. Muistia JVM:llä oli alkuun 2GB, nostin sitten 8GB, mutta sillä ei näyttänyt olevan suuremmin merkitystä. 1 core näyttää olevan kohtuu tasaisesti käytössä ja muistin kulutus JVM:n osalta näytti jopa laskevan kun ohjelma oli pidempään ajossa. 1.5GB-2GB kun oli tuo 2GB raja, 3GB enimmillään kun oli 8GB raja.</div><div><br></div><div> Alla joitain dokumenttien kokoja ja aikoja mitä tokenize() kesti kun ajoin näillä spekseillä. Dokumenttien koko siis merkkien määrä dokumentissa. Esim. 1.5k = 1500 merkkiä dokumentissa. Nämä ovat otteita erilaisista dokumenteista, mutta suunta oli suunnilleen tämä yleisesti.</div><div><br></div><div><div>1.5k noin 0.01s</div><div>25k noin 1s</div><div>30k noin 2s</div><div>40k noin 3s</div><div>60k noin 5s</div><div>65k noin 7s</div><div>115k noin 20s</div><div>270k noin 2min 8s eli 128s</div><div>415k noin 5min 20s eli 320s</div><div>960k jätin yöksi ajoon, noin 9h jälkeen tokenize oli vielä menossa.. (8GB testi n.25min kohdala menossa, mutta muistinkulutus 0.5GB)</div></div><span class="HOEnZb"><font color="#888888"><div><br></div><div>Teemu</div><div><br></div></font></span></div>
</blockquote></div><br></div>