[voikko] libvoikko HFST-transduktoreilla

Flammie Pirinen flammie at iki.fi
Wed Nov 4 12:31:34 EET 2009


2009-11-02, Harri Pitkänen sanoi:

> > Sourceforgessakin on kai jokin
> > bugienhallinta, mutta vaikka yleensä pidän esim. bugzillan käytöstä
> > sähköpostivuorien hallinnan sijaan niin sourceforgen bugisovellusta
> > en ole koskaan niin sisäistänyt.
> 
> Se on kieltämättä aika outo ja kankea käyttää. SourceForge tarjoaa
> myös Trac- sovellusta projektien käyttöön. 

Trac olisi kyllä jo riittävä. Pitänee selvittää miten sen saa käyttöön

> Minun puolestani SVN:ssä oleva toteutus saa muuttua vaikka
> päivittäin, sehän on kuitenkin vielä sellaisen vivun takana, etteivät
> muutokset vaikuta Voikon malagaa käyttävään tuotantokoodiin millään
> tavalla.

Kuulostaa ihan kohtuulliselta, voisin sitten piakkoinkin alkaa
virittämään tuohon ominaisuuksia ja tehoa ainakin analyysien osalta. 

> Käsittääkseni teillä olisi olemassa HFST-morfologioita myös muille
> kielille kuin suomelle? Nythän libvoikko on siinä suhteessa
> rajoittunut, että se ei varsinaisesti tue muita kieliä.

Kyllä välittömästi on ainakin pohjois-saame ja fääri kai saatavilla,
luultavasti vastaavia löytyy paljonkin kun morfologiset jäsentimet oli
usein tapana tehdä fst-työkaluilla, joita hfst:hen on kloonattu.
Lisäksi sanalistat ja monet spell-sanastot on aika helposti
käännettävissä automaateiksi.

> Minulla oli
> joka tapauksessa tarkoituksena alkuvuodesta 2010 tehdä joitakin
> yhteensopivuuden rikkovia muutoksia libvoikon C-rajapintaan, ja tässä
> yhteydessä olisi varsin hyvin mahdollista muuttaa kirjastoa niin,
> että se voisi samanaikaisesti palvella muitakin kuin yhtä kieltä.
> Voisin myös huolehtia tuen lisäämisestä OpenOffice-lisäosaan ja
> Enchantiin, koska tunnen tuon koodin ja tiedän, mitä muutoksia niihin
> tarvitaan.

Tämä kuulostaa ihan pätevältä suunnitelmalta ja on varmasti
tehokkaampaa kuin että itse yritän tehdä noita muutoksia, mikä varmasti
sekin ennemmin tai myöhemmin onnistuisi.

> Tietysti jo nyt SVN:ssä oleva versio kelpaa alustavaan
> testailuun, mutta kovin pitkälle sillä ei pääse, kun
> korjausehdotukset generoiva algoritmi on viritetty suomalaisia
> kirjoitusvirheitä varten ja sovelluksissa joutuu aina asettamaan
> tekstin kieleksi suomen, jotta oikoluku menisi Voikon kautta.

Tämä riittää varmasti mainiosti toimivuuden demoamiseen muille.
Korjausehdotuksista voisin myös selvittää voiko niitä generoida
riittävän tehokkaasti automaateilla, sillä ideana automaattien käyttö
tässäkin kuulostaa hauskalta.

> Toki esimerkiksi openoffice.org-voikosta pystyy tarvittaessa tekemään
> sopivia kohtia muuttamalla mukautetun version jollekin toiselle
> kielelle. Tein itse viime vuonna tuolla menetelmällä hspell-pohjaisen
> heprean kielen oikolukijan
> (http://voikko.svn.sourceforge.net/viewvc/voikko/branches/ooovoikko/hspell/)
> joka kyllä valmistui parissa päivässä ja kuulemma toimikin. Mutta
> hepreankielisestä yhteisöstä ei löytynyt tuolle ylläpitäjää, joten
> projekti jäi sitten siihen. Eli ylläpidossa on usein paljon suurempi
> vaiva kuin varsinaisessa koodaamisessa, ja tätä vaivaa vähentäisi
> tuntuvasti, jos HFST- oikolukijat toimisivat suoraan samassa
> lisäosassa Voikon kanssa.

Ainakin morfologioiden kanssa on tietynlainen jatkuva ylläpitotaakka
tunnetusti, mutta ilmeisesti tuossa heprean osalta ongelma oli
ooo-liitännän ylläpidossa? Tältä osin olen ehdottomasti samaa mieltä
että on arvokasta jos tämän ylläpitovaivan voi keskittää yhteen
lisäosaan tällä tavoin.

-- 
Flammie, computer scientist bachelor, linguist master, free software
Finnish localiser, and more! <http://www.iki.fi/flammie/>



More information about the voikko mailing list