[hunspell-fi-devel] Perusmuodossa olevien sanojen kerääminen
Harri Pitkänen
hatapitk at cc.jyu.fi
Sun Oct 30 18:13:30 EET 2005
On Sunday, 30. Octoberta 2005 15:47, Reijo Tomperi wrote:
> Kuulostaa järkevältä. Pitää vain keksiä raja mikä sallitaan esim.
> päivässä tietystä anonyymistä ip:stä tulevaksi.
Vaikkapa 20 sanaa päivässä?
> Ja voin vaikka ottaa sähköpostilla näitä listoja vastaan (jos
> palvelinratkaisua ei synny), prosessoida ne ja palauttaa lähettäjälle
> (tai suoraan Harrille) listan jonka sisältö on esim:
> adjektiivi subst-p
> hoitaja subst-p
> karahvi subst-p
> lamppu subst-luokitt
> sammal subst-luokitt
> nivel subst-luokitt
> # vuori ( subst-i3 tai subst-i3b )
Olisi hyödyllistä, että listat olisi järjestetty taivutusluokan mukaan, ja
saman taivutusluokan sanat aakkosjärjestyksessä takaperin kirjoitetun sanan
mukaan, jolloin listojen tarkistaminen on nopeampaa. Tehdään vaan aluksi
niin, että lähetä "varmoja tapauksia" sisältävät listat suoraan tänne
postituslistalle, voin sitten oikolukea ja lisätä ne samalla tavalla kuin
käsin kirjoitetut listatkin.
> Jossa siis ne sanat kommentoituna, joiden luokituksesta ei olla varmoja
> ja perässä suluissa mahdolliset vaihtoehdot. Muotoa voi tietty muuttaa
> toiseksikin. Lähdekoodit ja asennusohjeet yms. saisi tietty myös minulta
> jos haluaa omalle koneelleen tuollaisen asentaa.
Jos vaan viitsit, niin lähetä toki lähdekoodit (GPL-lisenssillä) tänne
listalle heti kun olet saanut aikaan mielestäsi toimivan version. On hyvinkin
mahdollista, että tekemistäsi ohjelmista löytyy hyödyllisiä algoritmeja ja
ideoita muihinkin apuohjelmiin.
> Se ongelmahan tuossa tietty on, että jos ihminen taivuttaa sanan väärin,
> testaaminen listalla jossa on väärintaivutettu sana ei tietenkään
> virhettä paljasta.
Sama ongelma tulee vastaan sanoja käsin lisättäessäkin, eli ei tässä
välttämättä huonompaan suuntaan mennä. Katsotaan nyt, kuinka tässä käy.
Harri
More information about the devel
mailing list