[voikko] tokenize isoille dokumenteille

Hannu Väisänen Hannu.Vaisanen at uef.fi
Thu Jan 7 08:03:30 EET 2016


06.01.2016, 18:13, Harri Pitkänen kirjoitti:
> Nyt tuo toimii kuten pitääkin, 5 miljoonan merkin teksti meni läpi noin 10
> sekunnissa.

Jos on vieläkin liian hidas ja jos käyttää Javaa, niin jflex'illä voi 
tehdä oman tokenizer-luokan. Katso Solr (tai Sukija :-).


More information about the voikko mailing list