[voikko] tokenize isoille dokumenteille
Harri Pitkänen
hatapitk at iki.fi
Wed Jan 6 18:13:27 EET 2016
On Wednesday 06 January 2016 16:49:08 Harri Pitkänen wrote:
> Ensimmäinen versio korjauksesta on nyt valmis:
>
>
> https://github.com/voikko/corevoikko/commit/6cde86727d753a2fb4daf30384283a0
> 938e11d1b
>
> Tämä ei vielä nähtävästi kokonaan poista ongelmaa, koska suoritusaika kasvaa
> edelleen selkeästi neliöllisesti, jos mennään yli 100 000 merkin
> kappaleisiin. Kuitenkin tämäkin korjaus parantaa tilannetta dramaattisesti,
> eli 200 000 merkin kappale meni läpi jo alle 10 sekunnin (aiemmin meni
> minuutteja). Siltikin se on vielä aivan liian hidas siihen nähden mitä sen
> pitäisi olla, joten selvitys jatkuu.
Lisäkorjaus täällä:
https://github.com/voikko/corevoikko/commit/d1ed36660f5741b7a67b8e4fb16b9bba15b931d5
Nyt tuo toimii kuten pitääkin, 5 miljoonan merkin teksti meni läpi noin 10
sekunnissa.
Harri
More information about the voikko
mailing list