Re: [hunspell-fi-devel] Perusmuodossa olevien sanojen kerääminen
Reijo Tomperi
reijo.tomperi at pp2.inet.fi
Sun Oct 30 15:47:58 EET 2005
Harri Pitkänen wrote:
>Tässä minulla ei pelkästään ollut ajatuksena tietoturvapuoli, vaan se, että
>emme oikein voi vastaanottaa suuria määriä sanoja anonyymeiltä
>"lahjoittajilta". Ainakin uuden tekijänoikeuslain mukaan luettelot ja
>tietokannat voivat olla tekijänoikeuksien suojaamia, joten meidän on
>
>
Kuulostaa järkevältä. Pitää vain keksiä raja mikä sallitaan esim.
päivässä tietystä anonyymistä ip:stä tulevaksi.
>Tässä varmaan riittää suojaksi se, että voimme tarvittaessa sulkea liittymän
>tyhjentää tietokannan siitä hetkestä eteen päin kun havaitsemme tuollaisen
>hyökkäyksen, jätämme jäljelle vain vanhemmat sanat.
>
>
Olen samaa mieltä myös tästä.
>Ei tähän varmistamiseen itse asiassa liity paljon muuta kuin se, mitä tuo
>ohjelmasi jo tekee automaattisesti. Oikeastaan kyse on vain siitä, että pitää
>jotenkin vakuuttautua siitä, että sanan taivutukset toisaan vastaavat
>ohjeissa annettujen esimerkkisanojen taivutuksia, myös niiden muotojen osalta
>joita ei oltu syötetty ohjelmaasi.
>
>
Ohjelmanihan ottaa toki vastaan niin monia muotoja kuin sille vain
kirjoittaa. Periaatteessa siis varmaan riittää että kirjoitetaan lista
sanoista muutamine taivutusmuotoineen, syötetään se lista tuolle
ohjelmalle, se generoi siitä ns. varmat tapaukset, jotka liitetään
sitten vaikka testilistaan joka voidaan ajaa vaikka hf-testaa ohjelmalla
vielä varmuuden vuoksi läpi ja jos virheitä ei tule, lisätään sanastoon.
Samaa listaa voidaan myös käyttää jatkossa sen testaamiseen, että
muutokset esim. hf-luolistat ohjelmassa ei ole aiheuttanut muutoksia.
Eli voin tehdä tuosta version joka osaa käsitellä kokonaisia
sanalistoja, jotka annetaan esim. muodossa:
koti kotia kotien kodeissa
kissa kissaa kissojen kissoissa
jne.
Ja voin vaikka ottaa sähköpostilla näitä listoja vastaan (jos
palvelinratkaisua ei synny), prosessoida ne ja palauttaa lähettäjälle
(tai suoraan Harrille) listan jonka sisältö on esim:
adjektiivi subst-p
hoitaja subst-p
karahvi subst-p
lamppu subst-luokitt
sammal subst-luokitt
nivel subst-luokitt
# vuori ( subst-i3 tai subst-i3b )
Jossa siis ne sanat kommentoituna, joiden luokituksesta ei olla varmoja
ja perässä suluissa mahdolliset vaihtoehdot. Muotoa voi tietty muuttaa
toiseksikin. Lähdekoodit ja asennusohjeet yms. saisi tietty myös minulta
jos haluaa omalle koneelleen tuollaisen asentaa.
Se ongelmahan tuossa tietty on, että jos ihminen taivuttaa sanan väärin,
testaaminen listalla jossa on väärintaivutettu sana ei tietenkään
virhettä paljasta.
More information about the devel
mailing list