[voikko] Omorfi/HFST:n ja Voikon vertailua

Harri Pitkänen hatapitk at iki.fi
Wed Nov 11 22:58:29 EET 2009


On Wednesday 11 November 2009, Flammie Pirinen wrote:
> Varmasti aika paljon pitää tehdä analysaattorin sorvaamiseksi oikolukua
> varten, tästäkin tietysti kaikki havainnot on syytä kerätä jotenkin,
> vaikka suuri osa korjauksista lienee melko ilmeisiä
> (yhdyssanamuodostusta ja johto-oppia rajoitettava rajusti, jne.)

Määrällisesti eniten eroja taitaa aiheuttaa se, ettei Joukahaisen sanastossa 
olevia "ei sallittu yhdyssanan (alku/loppu)osana"-lippuja huomioida Omorfissa. 
Tai sitten vastaavat sanat otetaan suoraan Kotuksen listasta, en tarkistanut 
tätä asiaa. Murteelliset ja puhekieliset sanat tuottavat myös paljon 
tapauksia, joita Voikko ei hyväksy. Nämäkin on Joukahaisen sanastossa merkitty 
lipuilla ja siten helposti karsittavissa pois.

> > Omorfi näyttäisi yhdistävän kolme sanastolähdettä, eli Kotuksen
> > sanalistan, Joukahaisen ja Suomen kielen käänteissanakirjan. En
> > tiennyt, että näistä jälkimmäinen olisi käytettävissä vapaalla
> > lisenssillä. Onkohan tässä epähuomiossa julkaistu jokin sisäiseen
> > tutkimuskäyttöön tarkoitettu yhdistelmä, vai onko tuo
> > käänteissanakirjan lisenssi tosiaan julkiseen levitykseen sopiva?
> 
> Jäin siihen käsitykseen että sitä olisi mahdollista käyttää syystä tai
> toisesta kun se minulle annettiin. En varsinaisesti ymmärrä tarpeeksi
> näistä asioista että osaisin selvittää tarkemmin, saati että jaksaisin.

Tuo voisi olla mahdollista sillä perusteella, että Käänteissanakirjan sanasto 
ei olisi lainkaan tekijänoikeuksien suojaama. Liian vanha, mekaanisesti 
generoitu tms. En nimittäin ole Käänteissanakirjaa koskaan itse nähnyt, enkä 
tiedä sen sisällöstä juuri muuta kuin mitä nimen perusteella voi päätellä. 
Käsitykseni parin vuoden takaisista Kotuksen sanaston vapauttamista 
edeltäneistä keskusteluista kuitenkin on, että näiden sanastojen suoja on 
Suomessa melkoisen vahva. En siksi kovin helposti usko tuohon mahdollisuuteen. 
Jos aineistolla on minkäänlaista suojaa, pitäisi koodin mukana tulla maininta 
lisenssistä, jonka nojalla sitä voi käyttää osana GPL-lisensoitua 
kokonaisuutta.

Harri



More information about the voikko mailing list