[voikko-devel] Sanaston kehittämisen periaatteet

Harri Pitkänen hatapitk at cc.jyu.fi
Sat Nov 18 21:54:41 EET 2006


On Saturday 18 November 2006 20:48, Teemu Likonen wrote:
> Lisäsin nyt käytännönläheisempää tietoa, millaista tavaraa (minun
> mielestä) oikolukusanastoon lisätään. Lista vähemmän tärkeistä sanoista
> vielä puuttuu. Mukana on myös kahden kohdan "kieltolista". Vielä tällä
> hetkellä teksti on vain SVN:ssä, mutta huomisesta lähtien Joukahaisen
> etusivulle linkitetyltä ohjesivulta pääsee myös tähän uuteen
> dokumenttiin.
>
> http://hunspell-fi.svn.sourceforge.net/viewvc/*checkout*/hunspell-fi/trunk/
>docs/sanasto.html

GPL-yhteensopivien lähteiden ja vapaiden Internet-lähteiden käyttöä voisi 
tarkentaa sen verran, että niitä olisi parempi olla käyttämättä ollenkaan 
ennen kuin kysyy luvan tältä postituslistalta. Tähän on montakin syytä.

Ensinnäkin GPL vaatii, että tekijänoikeuden haltijalle on annettava tunnustus 
työstään. Eli vaikka käyttäisitte luvan kanssa jonkun toisen tekemää 
materiaalia, täytyy minulla olla tieto siitä jotta voin lisätä maininnan 
tästä lähteestä CONTRIBUTORS-tiedostoon (tai johonkin muuhun sopivaan 
paikkaan). Sitä paitsi jos joku sopiva lähde jostain löytyy, niin muutkin 
varmasti haluavat siihen tutustua.

Toiseksi pelkään, että kovin monella ei ole niin paljon tietoa 
tekijänoikeuslaista ja GPL-lisenssistä, että lähteen käyttökelpoiseksi 
toteamista voisi jättää yhden ihmisen harkinnan varaan. Esimerkiksi Wikipedia 
ja Wiktionary ovat meille ihan samanlaisessa asemassa kuin kaupasta rahalla 
ostetut sanakirjat: meillä ei ole lisenssiä niiden suoraan kopiointiin, 
ainoastaan sellaiseen käyttöön mitä tekijänoikeuslaki ei rajoita. Tämä johtuu 
siitä, että GFDL ei ole GPL-yhteensopiva lisenssi. Muita mahdollisia 
ongelmalähteitä ovat GPL:n versiot (meillä on käytössä "versio 2 tai 
uudempi", mikä tarkoittaa sitä että pelkkä "versio 2" tai ensi keväästä 
lähtien "versio 3 tai uudempi" ovat meidän kannaltamme ainakin toistaiseksi 
epäyhteensopivia lisenssejä) tai lisensoinnissa tapahtuneet virheet 
("materiaalin käyttö on sallittu GPL-lisenssillä ei-kaupallisissa 
tarkoituksissa" on virheellinen lisenssi).

Itse asiassa ainoat tuntemani sallitut lähteet ovat ikivanha ispell-sanasto ja 
Jukka Nikulaisen myspell-sanasto 
(http://www.mv.helsinki.fi/home/jnikulai/projects/index.html). Niitäkään ei 
tosin ole CONTRIBUTORS-tiedostossa mainittu, koska on vähän epävarmaa kuinka 
paljon niitä on oikeasti edes käytetty Voikon sanaston kokoamisessa. 
Ispell-sanastoa ainakin on sen verran, että minun pitää varmaan siitä 
jonkinlainen maininta laittaa. Mutta näissäkin lähteissä on siis suuri määrä 
virheellisiä ja tarpeettomia sanoja, suora kopiointi ei ole missään nimessä 
järkevää.

Harri



More information about the devel mailing list