[hunspell-fi-devel] Sukija - suomen kieltä ymmärtävä indeksointiohjelma, versio 0.1

Hannu Väisänen hvaisane at joyx.joensuu.fi
Thu Feb 23 08:08:08 EET 2006


On Wed, Feb 22, 2006 at 05:11:24PM +0200, Harri Pitkänen wrote:
> Tässä olisi varmaan 
> tarpeen muokata tuota "output_filter tulosta" -aliohjelmaa niin, että sillä 
> saisi tulostettua myös muodossa "kansan=eläke=laitos".

Ihan oikein.


> Huomaan myös, että erisnimet hyväksytään pienellä alkukirjaimella 
> kirjoitettuna. Tämän muuttaminen taitaa olla työläämpää, kun nuo nimet 
> näyttäisivät olevan sanastossakin pienellä alkukirjaimella.

Koska kaikki erisnimet ovat omissa tiedostoissaan (etunimet.lex,
nimet.lex, paikannimet.lex, sukunimet.lex) yksinkertainen Perl-ohjelma
voisi muuttaa nimien ensimmäisen kirjaimen isoksi. Käsin pitäisi
muuttaa nimet, joissa on sekä isoja että pieniä kirjaimia kuten esim.
MacOS.

Ongelmana on malaga, joka ei erota isoja ja pieniä kirjaimia. Se
tunnistaa esim. muodot tohmajärvi, Tohmajärvi ja TohmaJÄRvi.
Suomi-malagasta saa kyllä ulos tiedon, onko sana erisnimi eli homma
voidaan ratkaista sitä kautta.

Erisnimisanastoissa ei ole nimiä, jos ne tai niiden osat ovat
tavallisia sanoja. Tohmajärvi on, mutta ei esim. Polvijärveä. Tämä on
tietysti vain sanojen keruun ongelma.


Ei kun hetkinen. Erisnimet on tallennettu jotenkin näin.

[perusmuoto: "tohmajärvi", alku: "tohmajärv", luokka: paikannimi, jatko: <lovi>, äs: ä];

Jos perusmuodon kirjoittaa sanastoon isolla alkukirjaimella (Tohmajärvi) niin
silloin malaga tulostaa perusmuodon isolla alkukirjaimella

malaga> ma tohmaJÄRvellä
Analyses of "tohmaJÄRvellä":
1: "Tohmajärvi"
malaga>

Kannattaisiko sittenkin muuttaa sanastossa erisnimet alkamaan isolla
alkukirjaimella?



More information about the devel mailing list