[hunspell-fi-devel] Sukija - suomen kieltä ymmärtävä indeksointiohjelma, versio 0.1

Harri Pitkänen hatapitk at cc.jyu.fi
Wed Feb 22 17:11:24 EET 2006


On Wednesday 22 February 2006 15:19, Hannu Väisänen wrote:
> Tiedostossa suomi.mor alkaa riviltä 962 aliohjelma output_filter
>
> output_filter tulosta ($tulos):
> ##  define $n := 6; # Oletusarvo.
>   define $n := 7;  # Sukija.
>
>
> Tässä kun ottaa kommentin pois oletusarvo-riviltä
> ja kommentoi sukija-rivin ja kääntää suomi-malagan
> uudelleen, yhdyssanatkin näkyvät osissaan.
>
> Tulostuksen isot kirjaimet ovat debuggausta varten. (-:

Näyttää toimivan, mutta tulos ei kyllä ole ihan sitä mitä tarvitsisin:

harri at c2:/tmp/suomi-malaga-0.1$ malaga -m suomi.pro -i kansaneläkelaitos
Results for "kansaneläkelaitos":

1: "+[E+kansa+E]+[E+n+E]+[E+eläke+E]+[D+laitos+D]"

Tuon perusteella ei oikein voi mennä sanomaan, kuuluuko tavujako tuon 
yksinäisen n-kirjaimen eteen vai sen jälkeen. Eli taivutuspäätteet pitäisi 
jotenkin saada yhdistettyä niihin sanoihin, joihin ne kuuluvat. Toisaalta jos 
malagassa annan komennot

ma kansaneläkelaitos
tree

niin kuvasta kyllä löytyy kaikki tarvittava informaatio. Tässä olisi varmaan 
tarpeen muokata tuota "output_filter tulosta" -aliohjelmaa niin, että sillä 
saisi tulostettua myös muodossa "kansan=eläke=laitos". Katsellaan...

Huomaan myös, että erisnimet hyväksytään pienellä alkukirjaimella 
kirjoitettuna. Tämän muuttaminen taitaa olla työläämpää, kun nuo nimet 
näyttäisivät olevan sanastossakin pienellä alkukirjaimella.

Harri



More information about the devel mailing list