<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><br><div><div>Harri Pitkänen kirjoitti 13.1.2010 kello 19.03:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div>On Tuesday 12 January 2010, Flammie Pirinen wrote:<br><blockquote type="cite">Ne mitä nyt tällä hetkellä tarvitsee morfologian aikaansaamiseksi on<br></blockquote><blockquote type="cite">vieläkin kotus-luokitus nomineilta ja verbeiltä, jotka kai löytyvätkin<br></blockquote><blockquote type="cite">jo.<br></blockquote><br>Kotus-luokat voidaan ohjelmallisesti päätellä Joukahaisen luokista, eli sitä <br>kautta kyllä.<font class="Apple-style-span" color="#000000"><font class="Apple-style-span" color="#144FAE"><br></font></font></div></blockquote><div><br></div><div>Muistelinkin selvittäneeni jotain tuollaista joskus.</div><div><br></div><blockquote type="cite"><div><blockquote type="cite">Muut käsin varmistetut lisätiedot joita käytetään ovat nyt noissa<br></blockquote><blockquote type="cite">flägeissä mainittujen lisäksi joillekin adverbeille<br></blockquote><blockquote type="cite">possessiivitaivutusta tai kliittejä mitä sopii käyttää<br></blockquote><br>Adverbit eivät ole vielä Joukahaisessa, mutta ne olisi tarkoitus sinne <br>siirtää. Ehkäpä jo keväällä ehdin tämän toteuttamaan.<br><br><blockquote type="cite">ja lyhenteille<br></blockquote><br>Lyhenteitä ei ole Joukahaisessa. Nekin voisi periaatteessa siirtää, mutta <br>niitä on Voikon sanastossa sen verran vähän, etten ole pitänyt asiaa kovin <br>kiireellisenä.<br></div></blockquote><div><br></div><div>Nämä suljetut luokat saa ainakin omorfin aineistoista helpohkosti, mutta varmaan myös suomi-malagn/voikon aineistoista. </div><br><blockquote type="cite"><div><blockquote type="cite">ja vierassanoille ääntöasua<br></blockquote><br>Tähän liittyen on SourceForgessa bugi #1829873. Voisin toteuttaa tämän <br>ominaisuuden piankin jos keksin (tai joku muu suunnittelee), mikä olisi <br>järkevä muokkauskäyttöliittymä ja esitystapa XML:ssä tälle informaatiolle.<br></div></blockquote><div><br></div><div>Käyttöliittymistä ja XML:stä on hankala sanoa, itse siirsin leksikaalisen datan joku aika sitten csv-tiedostoihin joissa on vain tarpeelliset kentät kaikille sanoille ja sitten mielivaltainen määrä vapaamuotoisia lisäyksiä, jotta voisi nopeasti tehdä kaikenlaisia muutoksia. Toki lyhenteiden ja vierassanojen ääntäminen on sen verran harvinainen ominaisuus ettei sen toteuttaminen kaikkein kiireellisintä ole, sekä oudosti taipuvia vierassanoja että aukiluettuja lyhenteitä yleensä vältetään kirjoitettaessa muutenkin.</div><br><blockquote type="cite"><div><blockquote type="cite">ja monikkosanoille perusmuotoja ym.<br></blockquote><br>Monikkosanat ovat Joukahaisessa "yksikkömuodossaan".<br><br></div></blockquote><div><br></div><div>Se on morfologian toteutuksen kannalta hyvä lähtökohta, perusmuodoksi sitten pitää kuitenkin palauttaa useimpiin morfologisen analyysin sovelluksiin monikkomuoto, mutta se on toteutusyksityiskohtia. </div><br><blockquote type="cite"><div><blockquote type="cite">Yksi yhdyssanojen, tavutusten ja ehdotusten kannalta mahdollisesti<br></blockquote><blockquote type="cite">hyödyllinen tieto sanoista olisi saada oikeita frekvenssejä, niitä<br></blockquote><blockquote type="cite">voisi ehkä käyttää järjestämään tuloksia jne. Tosin tässäkin pärjää<br></blockquote><blockquote type="cite">melko pitkälle kun vain treenaa morfologian frekvenssit isosta<br></blockquote><blockquote type="cite">aineistosta löytyvien sanamuotojen perusteella.<br></blockquote><br>Jos frekvenssitietoa on jostain saatavissa oikeuksien puolesta <br>julkaisukelpoisessa ja helposti Joukahaiseen siirrettävässä muodossa, niin <br>sitä voidaan kyllä lisätä. Nykyinen kymmenportainen yleisyysluokitus on kyllä <br>käyttökelpoinen moneen tarkoitukseen, mutta se perustuu vain suurpiirteiseen <br>arviointiin eikä tietoa ole merkitty kuin pienelle osalle sanoista.<br></div></blockquote><div><br></div>Kaupallisetkin korpukset, kuten suomen kielen tekstipankki, on vain tehty analysoimalla suuri korpus automaattisesti, joten samaan tai lähelle pääsee ottamalla esimerkiksi nuo wikipedian ja gutenbergin tulokset. Ei se välttämättä ole erityisesti käsin tehtyä vaikkapa kymmenportaista luokitusta parempi, mutta sillä saa jo jotain testailtua aina. </div><div><br></div><div>Prosessoidun korpuksen lopputulokset nyt ovat aina sort | uniq -c | sort -nr:n näköisiä, joista nyt saa vaikka awkilla ne kentät taas käyttöön, niin varmaan esim. tietokantalausekkeet on suht helppo luoda siitäkin.</div><div><br><blockquote type="cite"><div><br><blockquote type="cite">Raapustelin joululomalla testityökaluihin tulostusapuja ja sain kasaan<br></blockquote><blockquote type="cite">html-tulosteen <<a href="http://home.gna.org/omorfi/testlogs/omorfi-latest.html">http://home.gna.org/omorfi/testlogs/omorfi-latest.html</a>><br></blockquote><blockquote type="cite">josta ehkä jo näkee missä kunnossa omorfi on voikko/suomi-malagaan<br></blockquote><blockquote type="cite">nähden.<br></blockquote><br>Näyttää hienolta. Itse kokeilin pikaisesti Omorfia viime viikolla, silloin en <br>saanut sitä libvoikossa lainkaan toimimaan. En tiedä missä vika oli. Epäilen, <br>että flag diacritics -ominaisuuden käyttö Omorfissa sotkee asiaa jotenkin kun <br>käytetään HFST:n APIa suoraan eikä komentorivityökaluja. En ehtinyt asiaa <br>enempää selvittää, ehkä vika on ollut jossain muualla.<br><br></div></blockquote><div><br></div>Olet oikeassa että flag diakriitit estävät sen vanhan voikkoliitännän toiminnan, unohdin että se pitää toteuttaa sinnekin. Koetan saada jotain aikaiseksi siihenkin.</div></body></html>