[voikko] pointtereita dokumenttien indeksointiin?

Tuomas Salo tuomas.salo at iki.fi
Thu May 19 23:50:29 EEST 2011


Hei,

mulla on kasa suomenkielisiä dokumentteja (html, pdf, yms, mutta voin kyllä muuntaa ne tekstimuotoonkin), jotka haluaisin indeksoida jollain hyvällä enginellä, jotta voin tehdä vapaasanahakuja. Ja tietysti niin, että se löytää suomen kielen muodot, siksihän tänne kirjoitankin.

Mistä lähtisin liikkeelle? Indeksointikoneet ei ole mulle kovin tuttuja, ja kuulisin mielelläni jos joku osaisi vinkata alkuun, nimenomaan tämän kieliasian suhteen. Lucene, Nutch? Jotain muuta? Kovin paksua rautalankaa en kuitenkaan tarvi - unix-työkalut yms. on kyllä tuttuja. :)

T




More information about the voikko mailing list