[voikko] Isonen ja poltos yhdyssanan osina

Sami Liedes sami.liedes at iki.fi
Fri Sep 30 15:06:15 EEST 2022


Oon joskus miettinyt, että voisin yrittää tehdä testiaineiston esim.
suomiwikipediasta. Itse asiassa koodasinkin joskus jotain, mikä yritti
koneoppivasti ennustaa, mikä voikon palauttamista jäsennyksistä on oikea,
mutta sen tulokset eivät ehkä olleet mainitsemisen arvoisia. :) (Lisäksi
se, mikä on oikea jäsennys ei aina ollut kovin ilmeistä, tai voisi
ajatella, että ainakin kaksi muotoa oli oikein, kun morfologia ja
morfeemirajat on jännä juttu.)

Tässä vähän brainstormausta. Yritän miettiä, voisinko tehdä jotain Voikon
kannalta hyödyllistä. Saa kommentoida.

Ajatus 1:

Jos yrittäisin koodata jotain, mikä pyrkii tunnistamaan erikoisia
jäsennyksiä? Olen ymmärtänyt tällä listalla, että pragmaattisesti ongelmana
pidettäisiin lähinnä tilanteita, joissa väärin kirjoitettu sana
hyväksytään, ja tilanne, jossa oikein kirjoitettu sana saa vääriä
jäsennyksiä ei ole millään tavalla huolestuttava. Tähän tietysti Wikipedia
ei ole optimi, koska suurin osa sanoista siellä on oikein.

Olisiko siitä heuristisesti hyötyä, jos pyrkisi tunnistamaan sanoja, jotka
oikoluku hyväksyy, mutta jonka kaikki jäsennykset ovat omituisia? Jokin
outlier detection jäsennyksille voisi olla mahdollinen.

Ajatus 2 (ehkä lupaavampi minusta):

Mulla on muuten myös Voikkoa hyödyntäen generoitu iso, gigatavujen kokoinen
sanalista, jonka tarkoitus on kattaa iso osa suomen sanoista
taivutusmuotoineen, mutta siinä on myös paljon sanoja, jotka eivät ole
millään mittapuulla järkeviä. Kaikki ne sanat menevät Voikosta läpi.
Voisiko tätä hyödyntää jotenkin?

Olisiko esim. tällaisesta iloa:

1. Määritetään "yleisten taivutusten" joukko siten, että tietty taivutettu
sana esiintyy Wikipediassa esim. vähintään (hattu) 3 kertaa.

2. Määritetään generatiivinen malli kirjoitusvirheille.
Yksinkertaisimmillaan esim. minkä tahansa kirjaimen lisääminen,
poistaminen, muuttaminen toiseksi tai kahden vierekkäisen kirjaimen
vaihtaminen päittäin.

3. Etsitään sanat, jotka ovat yleisten taivutusten mahdollisia
kirjoitusvirheitä ko. mallin mukaan, ja jotka Voikko hyväksyy, mutta jotka
eivät esiinny Wikipediassa lainkaan (tai esim. yleisimpien sanojen
joukossa).

Tämä ei olisi kovinkaan vaikea tehdä. Tulos varmasti on lähinnä sellainen,
että sen tulkitsemiseen täytyy käyttää järkeä; kaikki osumat eivät ole
relevantteja, mutta oletan, että jotain jänniä huomioita siitä voisi saada.

-Sami

On Thu, Sep 29, 2022, 16:07 Hannu Väisänen via voikko <
voikko at lists.puimula.org> wrote:

> to, 2022-09-29 kello 16:32 +0300, Jukka K. Korpela kirjoitti:
> > Aiheuttaisiko liputtaminen enemmän ongelmia kuin ratkaisisi? Joltakin
> > kannalta voisi sanoa, että se, ettei jotain sanaa lainkaan
> > tunnisteta, vaikka se on kielen sääntöjen mukainen yhdyssana ja
> > käytössäkin, on isompi ongelma kuin se, että sanan mahdollisten
> > jäsennysten joukossa on sellaisiakin. jotka eivät (kai) ole
> > semanttisesti mielekkäitä,
>
>
> Isos-yhdyssanoja onkin enemmän kuin minun testisanastossani. (-: Eli en
> laittanut lippua isoseen, mutta poltos-sanaan laitoin lipun ei voi olla
> yhdyssanan jälkiosana.
>
> _______________________________________________
> voikko mailing list
> voikko at lists.puimula.org
> https://lists.puimula.org/listinfo/voikko
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.puimula.org/pipermail/voikko/attachments/20220930/2509ffbd/attachment.htm>


More information about the voikko mailing list