[voikko] Omorfi/HFST:n ja Voikon vertailua
Harri Pitkänen
hatapitk at iki.fi
Wed Nov 11 22:58:29 EET 2009
On Wednesday 11 November 2009, Flammie Pirinen wrote:
> Varmasti aika paljon pitää tehdä analysaattorin sorvaamiseksi oikolukua
> varten, tästäkin tietysti kaikki havainnot on syytä kerätä jotenkin,
> vaikka suuri osa korjauksista lienee melko ilmeisiä
> (yhdyssanamuodostusta ja johto-oppia rajoitettava rajusti, jne.)
Määrällisesti eniten eroja taitaa aiheuttaa se, ettei Joukahaisen sanastossa
olevia "ei sallittu yhdyssanan (alku/loppu)osana"-lippuja huomioida Omorfissa.
Tai sitten vastaavat sanat otetaan suoraan Kotuksen listasta, en tarkistanut
tätä asiaa. Murteelliset ja puhekieliset sanat tuottavat myös paljon
tapauksia, joita Voikko ei hyväksy. Nämäkin on Joukahaisen sanastossa merkitty
lipuilla ja siten helposti karsittavissa pois.
> > Omorfi näyttäisi yhdistävän kolme sanastolähdettä, eli Kotuksen
> > sanalistan, Joukahaisen ja Suomen kielen käänteissanakirjan. En
> > tiennyt, että näistä jälkimmäinen olisi käytettävissä vapaalla
> > lisenssillä. Onkohan tässä epähuomiossa julkaistu jokin sisäiseen
> > tutkimuskäyttöön tarkoitettu yhdistelmä, vai onko tuo
> > käänteissanakirjan lisenssi tosiaan julkiseen levitykseen sopiva?
>
> Jäin siihen käsitykseen että sitä olisi mahdollista käyttää syystä tai
> toisesta kun se minulle annettiin. En varsinaisesti ymmärrä tarpeeksi
> näistä asioista että osaisin selvittää tarkemmin, saati että jaksaisin.
Tuo voisi olla mahdollista sillä perusteella, että Käänteissanakirjan sanasto
ei olisi lainkaan tekijänoikeuksien suojaama. Liian vanha, mekaanisesti
generoitu tms. En nimittäin ole Käänteissanakirjaa koskaan itse nähnyt, enkä
tiedä sen sisällöstä juuri muuta kuin mitä nimen perusteella voi päätellä.
Käsitykseni parin vuoden takaisista Kotuksen sanaston vapauttamista
edeltäneistä keskusteluista kuitenkin on, että näiden sanastojen suoja on
Suomessa melkoisen vahva. En siksi kovin helposti usko tuohon mahdollisuuteen.
Jos aineistolla on minkäänlaista suojaa, pitäisi koodin mukana tulla maininta
lisenssistä, jonka nojalla sitä voi käyttää osana GPL-lisensoitua
kokonaisuutta.
Harri
More information about the voikko
mailing list