[voikko] muutamia huomioita Sukijasta

Hannu Väisänen hannu.vaisanen at uef.fi
Tue Sep 6 08:16:14 EEST 2011


ma, 2011-09-05 kello 23:22 +0300, Tuomas Salo kirjoitti:

>  Nyt kun mietin tarkemmin, niin arvelen, että indeksointi toimiikin
> tietysti niin, että Sukija (vai pitäisikö sanoa malaga-fi) palauttaa
> hakumoottorille löytyneiden sanojen id:t eikä niinkään itse
> merkkijonoja perusmuodoista. Samoin sitten hakuvaiheessa
> hakulausekkeen sanat palautetaan id-arvoiksi eikä perusmuodoiksi.
> Jotenkin näin ehkä?

Sukija palauttaa sanan perusmuodon merkkijonona ja malaga-fi tallentaa
sen Nutchin tietokantaan. Tietokantaan sanat tallennetaan periaatteessa
tällaisessa muodossa

(perusmuoto, id, offset1, len1, offset2, len2, ....)

id on sen tiedoston tunnus, jossa sana on, offset on sanan etäisyys
tiedoston alusta ja len tiedostosta luetun sanan pituus (ei perusmuodon
pituus). Sanaa etsittäessä etsitään perusmuoto ja palautetaan sen
tiedot.

> Jos jollakulla on hyviä linkkejä aiheeseen liittyen, ahmisin tietoutta
> mielelläni. Ei tarvitse kysellä niin paljon tyhmiä kysymyksiä. :)

Minulla oli pitkä linkkilista, mutta onnistuin hävittämään sen. )-:
Voisi yrittää googlata sanoilla "full text indexing" ja "morphology".


> Mun mielestä parka-adjektiivilla ei voi koskaan olla vertailumuotoja.
> Tämähän on jo Voikon puolelle korjattukin.

Korjattu myös Sukijassa.

>  Pohdin vain, olisiko järkevää nostaa jotain lippuja, joilla esim.
> puis- ei olisi järkevä etuliite.

Sukijassa puis- ei ole etuliite, vaan johdettu sana puu + inen-johdin.
Nimisana+inen-johdin sanan alussa -tyypistä tulee niin paljon hassuja
yhdysanoja, että tyyppi taitaa olla kielletty Voikossa.


Nutch ei ole varsinaisesti indeksointiohjelma, vaan web crawler (mitä
tuo on suomeksi?), joka delegoi indeksoinnin muille ohjelmille (Solr:lle
versiossa 1.3, jossa malaga-fi ei toimi). Nutch on oikeastaan liian
raskas yhden koneen kovalevyllä olevien tiedostojen lukemiseen
indeksointia varten.





More information about the voikko mailing list