[voikko] Omorfi/HFST:n ja Voikon vertailua

Flammie Pirinen flammie at iki.fi
Thu Nov 12 11:28:50 EET 2009


2009-11-11, Harri Pitkänen sanoi:

> On Wednesday 11 November 2009, Flammie Pirinen wrote:
> > Varmasti aika paljon pitää tehdä analysaattorin sorvaamiseksi
> > oikolukua varten, tästäkin tietysti kaikki havainnot on syytä
> > kerätä jotenkin, vaikka suuri osa korjauksista lienee melko ilmeisiä
> > (yhdyssanamuodostusta ja johto-oppia rajoitettava rajusti, jne.)
> 
> Määrällisesti eniten eroja taitaa aiheuttaa se, ettei Joukahaisen
> sanastossa olevia "ei sallittu yhdyssanan (alku/loppu)osana"-lippuja
> huomioida Omorfissa. Tai sitten vastaavat sanat otetaan suoraan
> Kotuksen listasta, en tarkistanut tätä asiaa. Murteelliset ja
> puhekieliset sanat tuottavat myös paljon tapauksia, joita Voikko ei
> hyväksy. Nämäkin on Joukahaisen sanastossa merkitty lipuilla ja siten
> helposti karsittavissa pois.

Totta, omorfissa ei ole kuin täysin produktiivinen yhdyssananmuodostus,
joka on morfologisessa analyysissä suomen kohdalla kyllin helppo ettei
sitä haittaa pitää päällä. Varmaan monilta osin sanaston hallintaa
kannattaa siirtää omorfin rakennuksessa joukahaisen tyyliseksi ja ottaa
sieltä kaikki liput talteen ainakin transduktorien rakennuksen ajaksi,
jotta niiden mukaan voi helposti suodattaa.

> > > Omorfi näyttäisi yhdistävän kolme sanastolähdettä, eli Kotuksen
> > > sanalistan, Joukahaisen ja Suomen kielen käänteissanakirjan. En
> > > tiennyt, että näistä jälkimmäinen olisi käytettävissä vapaalla
> > > lisenssillä. Onkohan tässä epähuomiossa julkaistu jokin sisäiseen
> > > tutkimuskäyttöön tarkoitettu yhdistelmä, vai onko tuo
> > > käänteissanakirjan lisenssi tosiaan julkiseen levitykseen sopiva?
> > 
> > Jäin siihen käsitykseen että sitä olisi mahdollista käyttää syystä
> > tai toisesta kun se minulle annettiin. En varsinaisesti ymmärrä
> > tarpeeksi näistä asioista että osaisin selvittää tarkemmin, saati
> > että jaksaisin.
> 
> Tuo voisi olla mahdollista sillä perusteella, että Käänteissanakirjan
> sanasto ei olisi lainkaan tekijänoikeuksien suojaama. Liian vanha,
> mekaanisesti generoitu tms. En nimittäin ole Käänteissanakirjaa
> koskaan itse nähnyt, enkä tiedä sen sisällöstä juuri muuta kuin mitä
> nimen perusteella voi päätellä. Käsitykseni parin vuoden takaisista
> Kotuksen sanaston vapauttamista edeltäneistä keskusteluista kuitenkin
> on, että näiden sanastojen suoja on Suomessa melkoisen vahva. En
> siksi kovin helposti usko tuohon mahdollisuuteen. Jos aineistolla on
> minkäänlaista suojaa, pitäisi koodin mukana tulla maininta
> lisenssistä, jonka nojalla sitä voi käyttää osana GPL-lisensoitua
> kokonaisuutta.

Täytynee selvittää jostain.
-- 
Flammie, computer scientist bachelor, linguist master, free software
Finnish localiser, and more! <http://www.iki.fi/flammie/>



More information about the voikko mailing list