[voikko] Yleisön pyynnöstä: SukijaSolr
Ismo Raitanen
ismo.raitanen at iki.fi
Fri Oct 28 10:29:15 EEST 2011
Nopeaa toimintaa! Yleisö kiittää :)
Eli vielä tällä hetkellä tuo tekee ilmeisesti saman mitä voi tehdä
suoraan Solr-ohjelmistolla?
Itselläni on ajatuksena vertailla Solrilla eri menetelmien (mm. fuzzy,
stemmattu, yhdyssanat ositettu, n-gram) tuloksellisuutta
suomenkielisen merkintunnistusvirheitä sisältävän aineiston kanssa.
Vertailuun olisi mielenkiintoista saada mukaan Sukijan/Voikon
perusmuotoistama (ja kenties osittama) aineisto.
Tällä hetkellähän Solrin stemmaus perustuu Snowballiin ja yhdyssanojen
ositus sanakirjamenetelmään.
/Ismo
2011/10/27 Hannu Väisänen <hannu.vaisanen at uef.fi>:
> Sukijalla voi nyt lähettää tiedostoja indeksoitavaksi Solr:ään. (*)
> Tiedosto LUE-MINUT.txt kertoo tarkemmin.
>
> http://sourceforge.net/projects/sukija/
>
> (*) Mutta vielä en ole konfiguroinut Solr:ää muuttamaan
> suomen kielen sanat perusmuotoon ennen indeksointia.
More information about the voikko
mailing list