Re: [hunspell-fi-devel] Perusmuodossa olevien sanojen kerääminen

Reijo Tomperi reijo.tomperi at pp2.inet.fi
Sun Oct 30 15:47:58 EET 2005


Harri Pitkänen wrote:

>Tässä minulla ei pelkästään ollut ajatuksena tietoturvapuoli, vaan se, että 
>emme oikein voi vastaanottaa suuria määriä sanoja anonyymeiltä 
>"lahjoittajilta". Ainakin uuden tekijänoikeuslain mukaan luettelot ja 
>tietokannat voivat olla tekijänoikeuksien suojaamia, joten meidän on 
>  
>
Kuulostaa järkevältä. Pitää vain keksiä raja mikä sallitaan esim. 
päivässä tietystä anonyymistä ip:stä tulevaksi.

>Tässä varmaan riittää suojaksi se, että voimme tarvittaessa sulkea liittymän 
>tyhjentää tietokannan siitä hetkestä eteen päin kun havaitsemme tuollaisen 
>hyökkäyksen, jätämme jäljelle vain vanhemmat sanat.
>  
>
Olen samaa mieltä myös tästä.

>Ei tähän varmistamiseen itse asiassa liity paljon muuta kuin se, mitä tuo 
>ohjelmasi jo tekee automaattisesti. Oikeastaan kyse on vain siitä, että pitää 
>jotenkin vakuuttautua siitä, että sanan taivutukset toisaan vastaavat 
>ohjeissa annettujen esimerkkisanojen taivutuksia, myös niiden muotojen osalta 
>joita ei oltu syötetty ohjelmaasi.
>  
>
Ohjelmanihan ottaa toki vastaan niin monia muotoja kuin sille vain 
kirjoittaa. Periaatteessa siis varmaan riittää että kirjoitetaan lista 
sanoista muutamine taivutusmuotoineen, syötetään se lista tuolle 
ohjelmalle, se generoi siitä ns. varmat tapaukset, jotka liitetään 
sitten vaikka testilistaan joka voidaan ajaa vaikka hf-testaa ohjelmalla 
vielä varmuuden vuoksi läpi ja jos virheitä ei tule, lisätään sanastoon. 
Samaa listaa voidaan myös käyttää jatkossa sen testaamiseen, että 
muutokset esim. hf-luolistat ohjelmassa ei ole aiheuttanut muutoksia.

Eli voin tehdä tuosta version joka osaa käsitellä kokonaisia 
sanalistoja, jotka annetaan esim. muodossa:
koti kotia kotien kodeissa
kissa kissaa kissojen kissoissa
jne.
Ja voin vaikka ottaa sähköpostilla näitä listoja vastaan (jos 
palvelinratkaisua ei synny), prosessoida ne ja palauttaa lähettäjälle 
(tai suoraan Harrille) listan jonka sisältö on esim:
adjektiivi    subst-p
hoitaja    subst-p
karahvi    subst-p
lamppu    subst-luokitt
sammal    subst-luokitt
nivel    subst-luokitt
# vuori ( subst-i3 tai subst-i3b )

Jossa siis ne sanat kommentoituna, joiden luokituksesta ei olla varmoja 
ja perässä suluissa mahdolliset vaihtoehdot. Muotoa voi tietty muuttaa 
toiseksikin. Lähdekoodit ja asennusohjeet yms. saisi tietty myös minulta 
jos haluaa omalle koneelleen tuollaisen asentaa.

Se ongelmahan tuossa tietty on, että jos ihminen taivuttaa sanan väärin, 
testaaminen listalla jossa on väärintaivutettu sana ei tietenkään 
virhettä paljasta.



More information about the devel mailing list