[voikko] Omorfi/HFST:n ja Voikon vertailua

Flammie Pirinen flammie at iki.fi
Thu Jan 14 12:06:42 EET 2010


Harri Pitkänen kirjoitti 13.1.2010 kello 19.03:

> On Tuesday 12 January 2010, Flammie Pirinen wrote:
>> Ne mitä nyt tällä hetkellä tarvitsee morfologian aikaansaamiseksi on
>> vieläkin kotus-luokitus nomineilta ja verbeiltä, jotka kai  
>> löytyvätkin
>> jo.
>
> Kotus-luokat voidaan ohjelmallisesti päätellä Joukahaisen luokista,  
> eli sitä
> kautta kyllä.

Muistelinkin selvittäneeni jotain tuollaista joskus.

>> Muut käsin varmistetut lisätiedot joita käytetään ovat nyt noissa
>> flägeissä mainittujen lisäksi joillekin adverbeille
>> possessiivitaivutusta tai kliittejä mitä sopii käyttää
>
> Adverbit eivät ole vielä Joukahaisessa, mutta ne olisi tarkoitus sinne
> siirtää. Ehkäpä jo keväällä ehdin tämän toteuttamaan.
>
>> ja lyhenteille
>
> Lyhenteitä ei ole Joukahaisessa. Nekin voisi periaatteessa siirtää,  
> mutta
> niitä on Voikon sanastossa sen verran vähän, etten ole pitänyt asiaa  
> kovin
> kiireellisenä.

Nämä suljetut luokat saa ainakin omorfin aineistoista helpohkosti,  
mutta varmaan myös suomi-malagn/voikon aineistoista.

>> ja vierassanoille ääntöasua
>
> Tähän liittyen on SourceForgessa bugi #1829873. Voisin toteuttaa tämän
> ominaisuuden piankin jos keksin (tai joku muu suunnittelee), mikä  
> olisi
> järkevä muokkauskäyttöliittymä ja esitystapa XML:ssä tälle  
> informaatiolle.

Käyttöliittymistä ja XML:stä on hankala sanoa, itse siirsin  
leksikaalisen datan joku aika sitten csv-tiedostoihin joissa on vain  
tarpeelliset kentät kaikille sanoille ja sitten mielivaltainen määrä  
vapaamuotoisia lisäyksiä, jotta voisi nopeasti tehdä kaikenlaisia  
muutoksia. Toki lyhenteiden ja vierassanojen ääntäminen on sen verran  
harvinainen ominaisuus ettei sen toteuttaminen kaikkein kiireellisintä  
ole, sekä oudosti taipuvia vierassanoja että aukiluettuja lyhenteitä  
yleensä vältetään kirjoitettaessa muutenkin.

>> ja monikkosanoille perusmuotoja ym.
>
> Monikkosanat ovat Joukahaisessa "yksikkömuodossaan".
>

Se on morfologian toteutuksen kannalta hyvä lähtökohta, perusmuodoksi  
sitten pitää kuitenkin palauttaa useimpiin morfologisen analyysin  
sovelluksiin monikkomuoto, mutta se on toteutusyksityiskohtia.

>> Yksi yhdyssanojen, tavutusten ja ehdotusten kannalta mahdollisesti
>> hyödyllinen tieto sanoista olisi saada oikeita frekvenssejä, niitä
>> voisi ehkä käyttää järjestämään tuloksia jne. Tosin tässäkin pärjää
>> melko pitkälle kun vain treenaa morfologian frekvenssit isosta
>> aineistosta löytyvien sanamuotojen perusteella.
>
> Jos frekvenssitietoa on jostain saatavissa oikeuksien puolesta
> julkaisukelpoisessa ja helposti Joukahaiseen siirrettävässä  
> muodossa, niin
> sitä voidaan kyllä lisätä. Nykyinen kymmenportainen yleisyysluokitus  
> on kyllä
> käyttökelpoinen moneen tarkoitukseen, mutta se perustuu vain  
> suurpiirteiseen
> arviointiin eikä tietoa ole merkitty kuin pienelle osalle sanoista.

Kaupallisetkin korpukset, kuten suomen kielen tekstipankki, on vain  
tehty analysoimalla suuri korpus automaattisesti, joten samaan tai  
lähelle pääsee ottamalla esimerkiksi nuo wikipedian ja gutenbergin  
tulokset. Ei se välttämättä ole erityisesti käsin tehtyä vaikkapa  
kymmenportaista luokitusta parempi, mutta sillä saa jo jotain  
testailtua aina.

Prosessoidun korpuksen lopputulokset nyt ovat aina sort | uniq -c |  
sort -nr:n näköisiä, joista nyt saa vaikka awkilla ne kentät taas  
käyttöön, niin varmaan esim. tietokantalausekkeet on suht helppo luoda  
siitäkin.

>
>> Raapustelin joululomalla testityökaluihin tulostusapuja ja sain  
>> kasaan
>> html-tulosteen <http://home.gna.org/omorfi/testlogs/omorfi-latest.html 
>> >
>> josta ehkä jo näkee missä kunnossa omorfi on voikko/suomi-malagaan
>> nähden.
>
> Näyttää hienolta. Itse kokeilin pikaisesti Omorfia viime viikolla,  
> silloin en
> saanut sitä libvoikossa lainkaan toimimaan. En tiedä missä vika oli.  
> Epäilen,
> että flag diacritics -ominaisuuden käyttö Omorfissa sotkee asiaa  
> jotenkin kun
> käytetään HFST:n APIa suoraan eikä komentorivityökaluja. En ehtinyt  
> asiaa
> enempää selvittää, ehkä vika on ollut jossain muualla.
>

Olet oikeassa että flag diakriitit estävät sen vanhan voikkoliitännän  
toiminnan, unohdin että se pitää toteuttaa sinnekin. Koetan saada  
jotain aikaiseksi siihenkin.
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.puimula.org/pipermail/voikko/attachments/20100114/767904e7/attachment.html>


More information about the voikko mailing list