[voikko] tokenize isoille dokumenteille

Teemu Kanstrén tkanstren at gmail.com
Wed Jan 6 11:48:52 EET 2016


Hei,

 Yritän tässä ajaa Voikon läpi isohkojakin dokumentteja. Käytän Java
rajapintaa ja (vielä) libvoikko 3.8 versiota. Isommilla dokumenteille
tokenize() funktio näyttää muuttuvan todella hitaaksi. Onko jotain temppuja
millä saan tämän toimimaan paremmin? Tai näkyvyyttä mistä tämä johtuu,
esim. joku konfiguraatio ongelma.

 Ajelin näitä siis OSX:ssä, libvoikko 3.8. Muistia JVM:llä oli alkuun 2GB,
nostin sitten 8GB, mutta sillä ei näyttänyt olevan suuremmin merkitystä. 1
core näyttää olevan kohtuu tasaisesti käytössä ja muistin kulutus JVM:n
osalta näytti jopa laskevan kun ohjelma oli pidempään ajossa. 1.5GB-2GB kun
oli tuo 2GB raja, 3GB enimmillään kun oli 8GB raja.

 Alla joitain dokumenttien kokoja ja aikoja mitä tokenize() kesti kun ajoin
näillä spekseillä. Dokumenttien koko siis merkkien määrä dokumentissa.
Esim. 1.5k = 1500 merkkiä dokumentissa. Nämä ovat otteita erilaisista
dokumenteista, mutta suunta oli suunnilleen tämä yleisesti.

1.5k noin 0.01s
25k noin 1s
30k noin 2s
40k noin 3s
60k noin 5s
65k noin 7s
115k noin 20s
270k noin 2min 8s eli 128s
415k noin 5min 20s eli 320s
960k jätin yöksi ajoon, noin 9h jälkeen tokenize oli vielä menossa.. (8GB
testi n.25min kohdala menossa, mutta muistinkulutus 0.5GB)

Teemu
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.puimula.org/pipermail/voikko/attachments/20160106/fec40a2f/attachment.html>


More information about the voikko mailing list