[hunspell-fi-devel] Sukija - suomen kieltä ymmärtävä indeksointiohjelma, versio 0.1
Harri Pitkänen
hatapitk at cc.jyu.fi
Wed Feb 22 17:11:24 EET 2006
On Wednesday 22 February 2006 15:19, Hannu Väisänen wrote:
> Tiedostossa suomi.mor alkaa riviltä 962 aliohjelma output_filter
>
> output_filter tulosta ($tulos):
> ## define $n := 6; # Oletusarvo.
> define $n := 7; # Sukija.
>
>
> Tässä kun ottaa kommentin pois oletusarvo-riviltä
> ja kommentoi sukija-rivin ja kääntää suomi-malagan
> uudelleen, yhdyssanatkin näkyvät osissaan.
>
> Tulostuksen isot kirjaimet ovat debuggausta varten. (-:
Näyttää toimivan, mutta tulos ei kyllä ole ihan sitä mitä tarvitsisin:
harri at c2:/tmp/suomi-malaga-0.1$ malaga -m suomi.pro -i kansaneläkelaitos
Results for "kansaneläkelaitos":
1: "+[E+kansa+E]+[E+n+E]+[E+eläke+E]+[D+laitos+D]"
Tuon perusteella ei oikein voi mennä sanomaan, kuuluuko tavujako tuon
yksinäisen n-kirjaimen eteen vai sen jälkeen. Eli taivutuspäätteet pitäisi
jotenkin saada yhdistettyä niihin sanoihin, joihin ne kuuluvat. Toisaalta jos
malagassa annan komennot
ma kansaneläkelaitos
tree
niin kuvasta kyllä löytyy kaikki tarvittava informaatio. Tässä olisi varmaan
tarpeen muokata tuota "output_filter tulosta" -aliohjelmaa niin, että sillä
saisi tulostettua myös muodossa "kansan=eläke=laitos". Katsellaan...
Huomaan myös, että erisnimet hyväksytään pienellä alkukirjaimella
kirjoitettuna. Tämän muuttaminen taitaa olla työläämpää, kun nuo nimet
näyttäisivät olevan sanastossakin pienellä alkukirjaimella.
Harri
More information about the devel
mailing list