[voikko] Yleisön pyynnöstä: SukijaSolr

Hannu Väisänen hannu.vaisanen at uef.fi
Fri Oct 28 11:10:51 EEST 2011


pe, 2011-10-28 kello 10:29 +0300, Ismo Raitanen kirjoitti:
> Nopeaa toimintaa! Yleisö kiittää :)

Tekijä kiittää kiitoksista. (-:

> Eli vielä tällä hetkellä tuo tekee ilmeisesti saman mitä voi tehdä
> suoraan Solr-ohjelmistolla?

Aivan. Tuo oli se vaikea osuus. Seuraavaksi tarvitsee konfiguroida
Solr käyttämään jotain sopivaa Sukjan Analyzer-luokkaa.
Jos se ei rupea pelittämään, toinen mahdollisuus on muuttaa sanat
perusmuotoon SukijaSolr:ssä ja laittaa perusmuodot Solr:ään
indeksoitavaksi.

> Itselläni on ajatuksena vertailla Solrilla eri menetelmien (mm. fuzzy,
> stemmattu, yhdyssanat ositettu, n-gram) tuloksellisuutta
> suomenkielisen merkintunnistusvirheitä sisältävän aineiston kanssa.
> Vertailuun olisi mielenkiintoista saada mukaan Sukijan/Voikon
> perusmuotoistama (ja kenties osittama) aineisto.

Yhdyssanoja ei ehkä kannata ruveta jakamaan osiinsa Sukijalla (siis
Suomi-Malagan Sukija-versiolla). Sukija tunnistaa yhdyssanoja hyvin
vapaasti, mistä seuraa se, että se tunnistaa yhdyssanoja paitsi
asiallisesti, myös luovasti. (Katso keskustelua "muutamia huomioita
Sukijasta.) Esimerkiksi puistotien -> puisto+tie, puis+toti (puu +
inen-johdin + toti). Sanojen etsimisessä luovat yhdyssanat eivät
haittaa, sillä tuskinpa kukaan etsii sanaa "puistoti".

Oikoluvun ja indeksoinnin tarpeet ovat erilaiset. Indeksoinnissa ei
riitä se, että tunnistetaan vain "olemassa olevat" sanat, vaan pitää
olla vähän niin kuin Lönnrotin sanakirja ja tunnistaa "kaikki" sanat,
jotka ovat morfologisesti mahdollisia. Niinpä Sukija tunnistaa esim.
johdokset tyyppiä opettajattaruudellisuus:

opettaa + johtimet -jA + -tAr + -UUs + -llinen + -UUs.

No juu, yksinkertaisuuden vuoksi Sukijassa on tekijännimen johtimella
-jA kome muotoa: -jA, -jAtAr, -jAtArUUs. Sain koodin yksinkertaisemmaksi
ja nopeammaksi.

Että tälleen. (-:



More information about the voikko mailing list