[voikko] Yleisön pyynnöstä: SukijaSolr

Ismo Raitanen ismo.raitanen at iki.fi
Fri Oct 28 10:29:15 EEST 2011


Nopeaa toimintaa! Yleisö kiittää :)

Eli vielä tällä hetkellä tuo tekee ilmeisesti saman mitä voi tehdä
suoraan Solr-ohjelmistolla?

Itselläni on ajatuksena vertailla Solrilla eri menetelmien (mm. fuzzy,
stemmattu, yhdyssanat ositettu, n-gram) tuloksellisuutta
suomenkielisen merkintunnistusvirheitä sisältävän aineiston kanssa.
Vertailuun olisi mielenkiintoista saada mukaan Sukijan/Voikon
perusmuotoistama (ja kenties osittama) aineisto.

Tällä hetkellähän Solrin stemmaus perustuu Snowballiin ja yhdyssanojen
ositus sanakirjamenetelmään.

/Ismo

2011/10/27 Hannu Väisänen <hannu.vaisanen at uef.fi>:
> Sukijalla voi nyt lähettää tiedostoja indeksoitavaksi Solr:ään. (*)
> Tiedosto LUE-MINUT.txt kertoo tarkemmin.
>
> http://sourceforge.net/projects/sukija/
>
> (*) Mutta vielä en ole konfiguroinut Solr:ää muuttamaan
> suomen kielen sanat perusmuotoon ennen indeksointia.



More information about the voikko mailing list