[voikko] tokenize isoille dokumenteille

Harri Pitkänen hatapitk at iki.fi
Wed Jan 6 18:13:27 EET 2016


On Wednesday 06 January 2016 16:49:08 Harri Pitkänen wrote:
> Ensimmäinen versio korjauksesta on nyt valmis:
> 
>  
> https://github.com/voikko/corevoikko/commit/6cde86727d753a2fb4daf30384283a0
> 938e11d1b
> 
> Tämä ei vielä nähtävästi kokonaan poista ongelmaa, koska suoritusaika kasvaa
> edelleen selkeästi neliöllisesti, jos mennään yli 100 000 merkin
> kappaleisiin. Kuitenkin tämäkin korjaus parantaa tilannetta dramaattisesti,
> eli 200 000 merkin kappale meni läpi jo alle 10 sekunnin (aiemmin meni
> minuutteja). Siltikin se on vielä aivan liian hidas siihen nähden mitä sen
> pitäisi olla, joten selvitys jatkuu.

Lisäkorjaus täällä:

  https://github.com/voikko/corevoikko/commit/d1ed36660f5741b7a67b8e4fb16b9bba15b931d5

Nyt tuo toimii kuten pitääkin, 5 miljoonan merkin teksti meni läpi noin 10 
sekunnissa.

Harri


More information about the voikko mailing list