[voikko] pos

Sami Liedes sami.liedes at iki.fi
Thu Dec 22 17:18:58 EET 2016


On December 22, 2016 4:47:30 PM GMT+02:00, "Harri Pitkänen" <hatapitk at iki.fi> wrote:
>Hei!
>
>Teemu Kanstrén kirjoitti 2016-12-19 21:38:
>>  Voikolla saa kivasti sanojen perusmuodot (baseform). Joskus näitä
>> on kuitenkin useampia ja ne ovat eri tyyppisiä. Esim.tyyppiä
>> "teonsana" vs "nimentö".
>> 
>>  Saako tästä millään kivalla kikalla valittua yhden ja ollen
>> oikeassa korkealla todennäköisyydellä? Voikolla tai muuten.
>
>Tähän ei valitettavasti ole vielä kehitetty mitään yleispätevää 
>ratkaisua. Olen kyllä tehnyt muutamia toteutuksia, joissa valikointia
>on 
>tehty esim. Python-koodilla sanan attribuuttien perusteella. Nämä
>kaikki 
>on tehty jotain erityistarkoitusta varten, jossa tekstin konteksti on 
>ollut tiedossa, ja sovelluksen käyttötarkoitus on muutoinkin
>vaikuttanut 
>käytettyyn menetelmään.
>
>Harri
>_______________________________________________
>voikko mailing list
>voikko at lists.puimula.org
>http://lists.puimula.org/listinfo/voikko

Onkohan tähän olemassa mitään hyvää tägättyä aineistoa, jolla asiaa voisi lähestyä koneoppimisen kautta? Voikkoa voisi hyvin käyttää komponenttina tällaisessa.

Yleensäkinhän on syytä huomioida, että kokeellisessa jäsentämisessä sen enempää kuin oikoluvussakaan tehtävä ei ole tunnistaa valideja rakenteita, vaan muodostaa valistunut arvaus siitä, mitä kirjoittaja tarkoitti. Usein tämä voidaan tehdä paremmin konteksti huomioiden.

Esimerkiksi lauseesta "Haluatko maksaa, kärsiä, potkia vai sorkkia?" voidaan päätellä, että puhutaan suurella todennäköisyydellä eläimen osista eikä verbeistä, vaikka molemmat tulkinnat ovat semanttisesti järkeviä: Sanat "maksa", "kärsä", "potka" ja "sorkka" esiintyvät paljon todennäköisemmin yhdessä kuin verbit "maksaa", "kärsiä", "potkia" ja "sorkkia".

Tällaisen oppimiseen kuitenkin tarvitaan isohko aineisto, ja jos se on valmiiksi tägättyä oikeilla muodoilla, entistä parempi.


More information about the voikko mailing list