[voikko] Muutoksia libvoikon Solr-pluginiin ja WORDBASES-attribuuttiin

"Harri Pitkänen" hatapitk at iki.fi
Tue Apr 3 19:41:10 EEST 2012


Libvoikon Solr-plugin on kirjoitettu kokonaan uusiksi
Kansalliskirjastossa. Tämä uusi versio on siinä määrin talvella tekemääni
pluginia monipuolisempi, etten näe erityistä syytä jatkaa oman versioni
ylläpitämistä. Kansalliskirjaston versio pluginista sekä sen käyttöön
tarvittava konfiguraatio löytyvät seuraavista osoitteista:

  https://github.com/KDK-Alli/SolrPlugins/tree/master/Voikko
  https://github.com/KDK-Alli/NDL-VuFind/blob/master/solr/biblio/conf/schema.xml

Jos joku on ehtinyt ottaa aiemmin tällä listalla esittelemäni pluginin
käyttöön, tutustukaa tuohon uuteen ja kertokaa, pystyttekö siirtymään
siihen. Yritetään ratkaista kaikki siirtymiseen liittyvät ongelmat. Jos
ongelmista ei kuulu, poistan jossain vaiheessa Voikon SVN:stä tuon oman
solr-projektini.

Kansalliskirjaston hakukonetta varten libvoikon morfologisen
analysaattorin tuottamaan WORDBASES-attribuuttiin täytyy lisätä hiukan
lisää informaatiota. Tämä muutos ei ole täysin yhteensopiva vanhan
formaatin kanssa, eli tätä tietoa parsivia sovelluksia on muutettava
libvoikon versioon 3.5 siirryttäessä. Tässä yhteydessä muistutan, että
näiden attribuuttien sisältöä ei ole määritelty osaksi libvoikon APIa. Eli
tällaiset muutokset ovat mahdollisia versioiden välillä. Sama muutos
todennäköisesti tulee koskemaan myös harvemmin käytettyä
WORDIDS-attribuuttia.

Muutosten myötä tulee mahdolliseksi tehdä hakuja luotettavammin yhdyssanan
osista myös niissä tapauksissa, joissa yhdyssanan osa on johdettu muoto
toisesta kantasanasta: käytännössä haku onnistuisi sekä kantasanalla että
johdetulla muodolla. Jää tietysti Kansalliskirjaston kehittäjien
ratkaistavaksi, mitä muotoja siellä halutaan hyödyntää. Lisäksi tarkoitus
on mahdollistaa sanan osaan perustuvissa hauissa hakusanan erottaminen ja
korostaminen tuloksessa tarkasti (nyt korostuu aina koko yhdyssana).

Julkisesti saatavilla olevista ohjelmista tiedän ainoastaan libvoikon
testien, Solr-pluginin sekä Webvoikon käyttävän näitä attribuutteja
hyväkseen, joten kovin paljon emme joudu koodia korjailemaan.

Harri
More information about the voikko mailing list