[hunspell-fi-devel] Perusmuodossa olevien sanojen kerääminen

Harri Pitkänen hatapitk at cc.jyu.fi
Sun Oct 30 18:13:30 EET 2005


On Sunday, 30. Octoberta 2005 15:47, Reijo Tomperi wrote:
> Kuulostaa järkevältä. Pitää vain keksiä raja mikä sallitaan esim.
> päivässä tietystä anonyymistä ip:stä tulevaksi.

Vaikkapa 20 sanaa päivässä?

> Ja voin vaikka ottaa sähköpostilla näitä listoja vastaan (jos
> palvelinratkaisua ei synny), prosessoida ne ja palauttaa lähettäjälle
> (tai suoraan Harrille) listan jonka sisältö on esim:
> adjektiivi    subst-p
> hoitaja    subst-p
> karahvi    subst-p
> lamppu    subst-luokitt
> sammal    subst-luokitt
> nivel    subst-luokitt
> # vuori ( subst-i3 tai subst-i3b )

Olisi hyödyllistä, että listat olisi järjestetty taivutusluokan mukaan, ja 
saman taivutusluokan sanat aakkosjärjestyksessä takaperin kirjoitetun sanan 
mukaan, jolloin listojen tarkistaminen on nopeampaa. Tehdään vaan aluksi 
niin, että lähetä "varmoja tapauksia" sisältävät listat suoraan tänne 
postituslistalle, voin sitten oikolukea ja lisätä ne samalla tavalla kuin 
käsin kirjoitetut listatkin.

> Jossa siis ne sanat kommentoituna, joiden luokituksesta ei olla varmoja
> ja perässä suluissa mahdolliset vaihtoehdot. Muotoa voi tietty muuttaa
> toiseksikin. Lähdekoodit ja asennusohjeet yms. saisi tietty myös minulta
> jos haluaa omalle koneelleen tuollaisen asentaa.

Jos vaan viitsit, niin lähetä toki lähdekoodit (GPL-lisenssillä) tänne 
listalle heti kun olet saanut aikaan mielestäsi toimivan version. On hyvinkin 
mahdollista, että tekemistäsi ohjelmista löytyy hyödyllisiä algoritmeja ja 
ideoita muihinkin apuohjelmiin.

> Se ongelmahan tuossa tietty on, että jos ihminen taivuttaa sanan väärin,
> testaaminen listalla jossa on väärintaivutettu sana ei tietenkään
> virhettä paljasta.

Sama ongelma tulee vastaan sanoja käsin lisättäessäkin, eli ei tässä 
välttämättä huonompaan suuntaan mennä. Katsotaan nyt, kuinka tässä käy.

Harri



More information about the devel mailing list