[voikko] tokenize isoille dokumenteille

Teemu Kanstrén tkanstren at gmail.com
Thu Jan 7 15:22:21 EET 2016


Moi,

 Muistaakseni jonkinlaista omaa tokenize versiota käytinkin alkuun, mutta
tuo Voikon oma paremmin hanskasi Suomen kielen yhdyssanat, väliviivat ja
muuta vastaavaa. Siksi sitä tykkäsin käyttää, ei tarvinnut alkaa detaileja
itse säätään. En ole kyllä sorsia katsonut kuinka yksinkertaista se sitten
oikeasti on.

 Mutta voitko tehdä Java versiosta uuden Maven deploymentin eli sellaisen
että voin vetäistä sen Maven centralista versionumeroa muuttamalla? Entä
onko libvoikon sorsien päivityksestä webbisivuille mahdollista aikataulua?
Voikon sivuilla myös ehdotetaan kysymään listalla apua OSX kääntämiseen.
Auttakee? Tai kuka sitä homebrew versiota hoitaa ja voiko siihen saada
näitä uusimpia muutoksia?

t.Teemu

2016-01-07 8:03 GMT+02:00 Hannu Väisänen <Hannu.Vaisanen at uef.fi>:

>
> 06.01.2016, 18:13, Harri Pitkänen kirjoitti:
>
>> Nyt tuo toimii kuten pitääkin, 5 miljoonan merkin teksti meni läpi noin 10
>> sekunnissa.
>>
>
> Jos on vieläkin liian hidas ja jos käyttää Javaa, niin jflex'illä voi
> tehdä oman tokenizer-luokan. Katso Solr (tai Sukija :-).
>
> _______________________________________________
> voikko mailing list
> voikko at lists.puimula.org
> http://lists.puimula.org/listinfo/voikko
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.puimula.org/pipermail/voikko/attachments/20160107/78e80fac/attachment.html>


More information about the voikko mailing list