[voikko] Sukija, kirjoitusvirheet , yhdyssanat ja tulevaisuus
Hannu Väisänen
hannu.vaisanen at uef.fi
Mon Sep 5 09:08:42 EEST 2011
Sukija on suunniteltu hyväksymään joitakin kirjoitusvirheitä, esim.
tyyppiä kirjottaa, kehoittaa, julkasta, symbooli. Lisäksi se hyväksyy
sivistyssanojen vanhoja kirjoitusasuja (obligatio, obligatsio,
obligatsioni; funktsio). (Ja symbooli-tyyppi on wanha kirjoitusasu.)
Yhdyssanoja Sukija hyväksyy erittäin vapaasti, koska tarkoitus on
tunnistaa "suomenkieltä" siinä muodossa kuin sitä kirjoitetaan eikä
siinä muodossa kuin sitä oikeinkirjoitussääntöjen mukaan pitäisi
kirjoittaa. Tämän vuoksi Sukija tunnistaa myös hassuja yhdyssanoja
(vapaus-sotu-reisi). Indeksoinnissa se ei haittaa, koska tuskin kukaan
etsii tuollaisia sanoja. Nämä sanat tietysti kasvattavat
indeksointitietokannan kokoa, mutta levytila on halpaa. :-)
Sen sijaan perusmuoto "Ison-Britannia" on väärin ja korjaan sen.
Kiitos virheraportista!
Sukijan tulevaisuudesta:
Nykyinen versio on nimeltään malaga-fi
(http://sourceforge.net/projects/malaga-fi/) joka on Nutchin version 1.2
liitännäinen (onko tuo oikea plugin-sanan suomennos?). Nutchin
liitännäisten rajapinta (? interface; olen oppinut tietotekniikkasaston
vain englanniksi )-: kuitenkin muuttuu joka versiossa, joten olen
päättänyt kirjoittaa Sukijan taas kerran uudelleen. Tiedostot luen
apache-tikalla (http://tika.apache.org/) ja indeksoin Lucenella
(http://lucene.apache.org/). Jos en löydä mistään valmista
käyttöliittymää (Solr? http://lucene.apache.org/solr/) kirjoitan sen
itse. (-:
Tai ehkä Sukijan saa Solr:n liitännäiseksi, mutta miten usein Solr:n
liitännäisten rajapinta muuttuu?
More information about the voikko
mailing list