<div dir="auto">Oon joskus miettinyt, että voisin yrittää tehdä testiaineiston esim. suomiwikipediasta. Itse asiassa koodasinkin joskus jotain, mikä yritti koneoppivasti ennustaa, mikä voikon palauttamista jäsennyksistä on oikea, mutta sen tulokset eivät ehkä olleet mainitsemisen arvoisia. :) (Lisäksi se, mikä on oikea jäsennys ei aina ollut kovin ilmeistä, tai voisi ajatella, että ainakin kaksi muotoa oli oikein, kun morfologia ja morfeemirajat on jännä juttu.)<div dir="auto"><br></div><div dir="auto">Tässä vähän brainstormausta. Yritän miettiä, voisinko tehdä jotain Voikon kannalta hyödyllistä. Saa kommentoida.</div><div dir="auto"><br></div><div dir="auto">Ajatus 1:</div><div dir="auto"><br></div><div dir="auto">Jos yrittäisin koodata jotain, mikä pyrkii tunnistamaan erikoisia jäsennyksiä? Olen ymmärtänyt tällä listalla, että pragmaattisesti ongelmana pidettäisiin lähinnä tilanteita, joissa väärin kirjoitettu sana hyväksytään, ja tilanne, jossa oikein kirjoitettu sana saa vääriä jäsennyksiä ei ole millään tavalla huolestuttava. Tähän tietysti Wikipedia ei ole optimi, koska suurin osa sanoista siellä on oikein.</div><div dir="auto"><br></div><div dir="auto">Olisiko siitä heuristisesti hyötyä, jos pyrkisi tunnistamaan sanoja, jotka oikoluku hyväksyy, mutta jonka kaikki jäsennykset ovat omituisia? Jokin outlier detection jäsennyksille voisi olla mahdollinen.</div><div dir="auto"><br></div><div dir="auto">Ajatus 2 (ehkä lupaavampi minusta):</div><div dir="auto"><br></div><div dir="auto">Mulla on muuten myös Voikkoa hyödyntäen generoitu iso, gigatavujen kokoinen sanalista, jonka tarkoitus on kattaa iso osa suomen sanoista taivutusmuotoineen, mutta siinä on myös paljon sanoja, jotka eivät ole millään mittapuulla järkeviä. Kaikki ne sanat menevät Voikosta läpi. Voisiko tätä hyödyntää jotenkin?</div><div dir="auto"><br></div><div dir="auto">Olisiko esim. tällaisesta iloa:</div><div dir="auto"><br></div><div dir="auto">1. Määritetään "yleisten taivutusten" joukko siten, että tietty taivutettu sana esiintyy Wikipediassa esim. vähintään (hattu) 3 kertaa.</div><div dir="auto"><br></div><div dir="auto">2. Määritetään generatiivinen malli kirjoitusvirheille. Yksinkertaisimmillaan esim. minkä tahansa kirjaimen lisääminen, poistaminen, muuttaminen toiseksi tai kahden vierekkäisen kirjaimen vaihtaminen päittäin.</div><div dir="auto"><br></div><div dir="auto">3. Etsitään sanat, jotka ovat yleisten taivutusten mahdollisia kirjoitusvirheitä ko. mallin mukaan, ja jotka Voikko hyväksyy, mutta jotka eivät esiinny Wikipediassa lainkaan (tai esim. yleisimpien sanojen joukossa).</div><div dir="auto"><br></div><div dir="auto">Tämä ei olisi kovinkaan vaikea tehdä. Tulos varmasti on lähinnä sellainen, että sen tulkitsemiseen täytyy käyttää järkeä; kaikki osumat eivät ole relevantteja, mutta oletan, että jotain jänniä huomioita siitä voisi saada.</div><div dir="auto"><br></div>-Sami<br><br><div class="gmail_quote" dir="auto"><div dir="ltr" class="gmail_attr">On Thu, Sep 29, 2022, 16:07 Hannu Väisänen via voikko <<a href="mailto:voikko@lists.puimula.org" target="_blank" rel="noreferrer">voikko@lists.puimula.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">to, 2022-09-29 kello 16:32 +0300, Jukka K. Korpela kirjoitti:<br>
> Aiheuttaisiko liputtaminen enemmän ongelmia kuin ratkaisisi? Joltakin<br>
> kannalta voisi sanoa, että se, ettei jotain sanaa lainkaan<br>
> tunnisteta, vaikka se on kielen sääntöjen mukainen yhdyssana ja<br>
> käytössäkin, on isompi ongelma kuin se, että sanan mahdollisten<br>
> jäsennysten joukossa on sellaisiakin. jotka eivät (kai) ole<br>
> semanttisesti mielekkäitä,<br>
<br>
<br>
Isos-yhdyssanoja onkin enemmän kuin minun testisanastossani. (-: Eli en<br>
laittanut lippua isoseen, mutta poltos-sanaan laitoin lipun ei voi olla<br>
yhdyssanan jälkiosana.<br>
<br>
_______________________________________________<br>
voikko mailing list<br>
<a href="mailto:voikko@lists.puimula.org" rel="noreferrer noreferrer" target="_blank">voikko@lists.puimula.org</a><br>
<a href="https://lists.puimula.org/listinfo/voikko" rel="noreferrer noreferrer noreferrer" target="_blank">https://lists.puimula.org/listinfo/voikko</a><br>
</blockquote></div>
</div>