[hunspell-fi-devel] hf-sanakeruu - Sanojen kerääminen webbisivuilta

Harri Pitkänen hatapitk at cc.jyu.fi
Thu Nov 17 20:54:47 EET 2005


On Thursday, 17. Novemberta 2005 18:54, Reijo Tomperi wrote:
> Nyt meillä on (testi)käytössä php-sivusto, jonka kautta kuka tahansa voi
> helposti osallistua projektiin lisäämällä tietokantaan sanoja
> perusmuodossaan. Projektiin voitte tutustua lisää täällä:
> http://www.hunspell-fi.org/webapp/

Tämä oli siis se tekninen syy, miksi alkuviikosta erotin sanaston erilliseen 
tiedostoon.

Yksi uusi huomio: Kirjautumattomien käyttäjien IP-osoitteeseen perustuva 
sanarajoitus ei näytä tällä hetkellä toimivan, sanoja pystyy lisäämään miten 
monta tahansa ja "Olet lisännyt tänään" -laskuri näyttää vain viimeisimmällä 
lisäyksellä lisättyjen sanojen määrän.

Mutta sitten asiaan, eli vähän ajatuksia tuon järjestelmän käytöstä jatkon 
kannalta. Tämä sovellus on siis kokonaan Reijon tekemä, ja hänellä on suorat 
päivitysoikeudet sivuston tuohon osaan, joten en puutu tässä teknisiin 
asioihin. Sen sijaan käyttäjätunnusten jakamisen suhteen ajattelin toimia 
jatkossa sillä tavalla, että tunnuksia, jotka sallivat rajoittamattoman 
sanojen syötön ja sanalistojen hakemisen käsiteltäväksi, tullaan jakamaan 
melko vapaasti. Eli käytännössä kenelle tahansa, joka niitä pyytää. Tämä 
tunnusten vaatiminen on tehty (häiriköinnin hankaloittamisen lisäksi) sen 
takia, että mielestäni on hiukan riskialtista ottaa vastaan suuria määriä 
materiaalia anonyymeistä lähteistä. Jos sitten paljastuisi, että sanat on 
esimerkiksi kopioitu suoraan jostain sanakirjasta, niin olisimme 
vaikeuksissa. Tämän takia on oleellista, että kaikki, jotka aikovat lisätä 
sanoja tietokantaan merkittävissä määrin (siis yli 20 sanaa päivässä), 
ilmoittautuvat omalla nimellään joko tällä listalla (suositeltava vaihtoehto) 
tai minulle suoraan (vähemmän suositeltavaa). Käyttäjätunnuksia hakevien 
riittää kertoa nimensä ja mainita, että hyväksyvät käytön säännöt. Näitä 
sääntöjä ei muuten vielä ole minnekään tarkemmin kirjattu (kirjoitan ne 
erilliselle sivulle ja linkitän sen tuonne palveluun vielä tänään), mutta 
tiivistetysti kyse on siis siitä, että hyväksyy lisäämiensä sanojen käytön 
GPL-lisensöidyssä sanastossa, ei ole loukannut kenenkään tekijänoikeuksia 
sanoja listatessaan eikä yritä harjoittaa ilkivaltaa esim. varailemalla 
sanoja turhaan. Tosin tämä viimeinen rajoitus ei ole voimassa nyt kun 
järjestelmän toimivuutta vielä testaillaan, eli nyt bugien etsintä ja 
järjestelmän "väärinkäytäminen" on vielä sallittua, kunhan vaan raportoi 
kaikista löytämistään kummallisuuksista tällä listalla tai Reijolle suoraan. 
Lisäksi mainitsisin mielelläni kaikkien merkittävästi sanoja lisänneiden 
nimet tuolla www-sivulla (muiden tekijöiden ja lähteiden joukossa) joten jos 
nimeään ei jostain syystä halua sinne listaan, niin siitä kannattaa erikseen 
ilmoittaa.

Mutta siis nekin, joilla ei ole tunnuksia, voivat rajoitetusti käyttää tätä 
hienoa sovellusta, joten kaikki vaan testaamaan ja kommentoimaan.

Harri



More information about the devel mailing list