[voikko] tokenize isoille dokumenteille

Teemu Kanstrén tkanstren at gmail.com
Wed Jan 6 12:05:02 EET 2016


Näyttikin nyt menevän tuo reilun puolen tunnin jälkeen läpi. Olisi silti
ihan kiva jos saisi näitä vähän nopeammin menemään (ehkä pienemmällä
muistillakin..)...

2016-01-06 11:48 GMT+02:00 Teemu Kanstrén <tkanstren at gmail.com>:

> Hei,
>
>  Yritän tässä ajaa Voikon läpi isohkojakin dokumentteja. Käytän Java
> rajapintaa ja (vielä) libvoikko 3.8 versiota. Isommilla dokumenteille
> tokenize() funktio näyttää muuttuvan todella hitaaksi. Onko jotain temppuja
> millä saan tämän toimimaan paremmin? Tai näkyvyyttä mistä tämä johtuu,
> esim. joku konfiguraatio ongelma.
>
>  Ajelin näitä siis OSX:ssä, libvoikko 3.8. Muistia JVM:llä oli alkuun 2GB,
> nostin sitten 8GB, mutta sillä ei näyttänyt olevan suuremmin merkitystä. 1
> core näyttää olevan kohtuu tasaisesti käytössä ja muistin kulutus JVM:n
> osalta näytti jopa laskevan kun ohjelma oli pidempään ajossa. 1.5GB-2GB kun
> oli tuo 2GB raja, 3GB enimmillään kun oli 8GB raja.
>
>  Alla joitain dokumenttien kokoja ja aikoja mitä tokenize() kesti kun
> ajoin näillä spekseillä. Dokumenttien koko siis merkkien määrä
> dokumentissa. Esim. 1.5k = 1500 merkkiä dokumentissa. Nämä ovat otteita
> erilaisista dokumenteista, mutta suunta oli suunnilleen tämä yleisesti.
>
> 1.5k noin 0.01s
> 25k noin 1s
> 30k noin 2s
> 40k noin 3s
> 60k noin 5s
> 65k noin 7s
> 115k noin 20s
> 270k noin 2min 8s eli 128s
> 415k noin 5min 20s eli 320s
> 960k jätin yöksi ajoon, noin 9h jälkeen tokenize oli vielä menossa.. (8GB
> testi n.25min kohdala menossa, mutta muistinkulutus 0.5GB)
>
> Teemu
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.puimula.org/pipermail/voikko/attachments/20160106/75677069/attachment.html>


More information about the voikko mailing list