[voikko] Malaga-fi Finnish plugin for Nutch
Hannu Väisänen
hvaisane at joyx.joensuu.fi
Mon Apr 12 09:36:10 EEST 2010
Malaga-fi is a Nutch plugin for indexing documents written in Finnish.
Malaga-fi analyses words morphologically, converts them to a base form
(that you find in dictionaries) and indexes the base forms, so that
you find all inflections of a word by just searching for the base
form.
What you need:
1. Malaga programming language.
http://home.arcor.de/bjoern-beutel/malaga/
2. Suomimalaga - Description of Finnish morphology written in Malaga.
http://sourceforge.net/project/showfiles.php?group_id=156731
Newest version:
svn co https://voikko.svn.sourceforge.net/svnroot/voikko/trunk/suomimalaga
3. JNA library - Simplified native library access for Java.
https://jna.dev.java.net/
4. Malaga-fi - Nutch plugin for documents written in Finnish.
http://sourceforge.net/projects/malaga-fi/
5. Nutch: http://lucene.apache.org/nutch/
Malaga-fi is free software: you can redistribute it and/or modify
it under the terms of the GNU General Public License as published by
the Free Software Foundation, either version 3 of the License, or
(at your option) any later version.
Yksi muutos entiseen versioon verrattua on, että C++:lla kirjoitetun
Malagan Java-liittymän asemesta malaga-fi käyttää JNA:ta.
Toinen muutos on, että malaga-fi:hin voi nyt littää myös muita
ohjelmia kuin Malagan sanojen muuttamiseksi perusmuotoon, esim.
HFST:n. Mikäli olen tehnyt kaiken oikein (kuuluisat viimeiset sanat
:-) sitä varten tarvitsee vain kirjoittaa HFST:n vastine luokalle
MalagaMorphology.
public class HFSTMorphology implements Morphology { ...
More information about the voikko
mailing list