[voikko] libvoikko HFST-transduktoreilla

Harri Pitkänen hatapitk at iki.fi
Mon Nov 2 18:31:50 EET 2009


On Monday 02 November 2009, Flammie Pirinen wrote:
> 2009-11-01, Harri Pitkänen sanoi:
> > En löytänyt HFST:lle mitään selkeää
> > paikkaa bugien raportoimiseksi, mutta tässä olisi joka tapauksessa
> > asia, joka kannattanee jossain vaiheessa korjata.
> 
> Luultavasti hfst-bugs at helsinki.fi:tä mainostetaan ainoastaan
> komentoriviohjelmien --helpeissä.

Käytän tuota sitten jos jotain muuta ongelmaa tulee vielä vastaan.

> Sourceforgessakin on kai jokin
> bugienhallinta, mutta vaikka yleensä pidän esim. bugzillan käytöstä
> sähköpostivuorien hallinnan sijaan niin sourceforgen bugisovellusta en
> ole koskaan niin sisäistänyt.

Se on kieltämättä aika outo ja kankea käyttää. SourceForge tarjoaa myös Trac-
sovellusta projektien käyttöön. Tracista minulla on ihan hyviä kokemuksia, 
siinä on suhteellisen toimiva bugien hallinta, joka integroituu hyvin Tracin 
wikiin sekä SVN:ään. Pahin puute siinä on se, ettei tikettien välisiä 
riippuvuuksia pysty esittämään mitenkään. Mutta sama vika taitaa olla myös 
SourceForgen omassa bugien hallinnassa, eikä tuo ihan välttämätön ominaisuus 
olekaan pienten projektien käytössä.

> Kyllä pitäisin sitä parhaana lähestymisenä ettei tarvitse ainakaan
> toistaa työtä joka voikon saamiseksi openofficeen ja enchantiin jne. on
> jo tehty, jos ajatellaan että (h)fst-morfologioiden käyttö
> oikaisuluvuissa olisi hyödyllistä. Jos kaikki sujuu niin vaivattomasti
> kuin näyttää niin minusta tämä on melko ideaali tapa kehitellä
> fst-pohjaisia oikolukujuttuja ja testailla niitä helposti verrattuna
> mitä olen yrittänyt selvittää mm. juuri openofficeen liittämisestä.
> 
> Toki alussa on vielä paljon asioita joita pitää koetella ja muutella
> eestaas ennen kuin pystyy kirjoittamaan stabiilimpaa koodia svn:ään,
> mutta jonkinlaisen perustan voin kirjoittaa tuosta melko nopeasti.

Minun puolestani SVN:ssä oleva toteutus saa muuttua vaikka päivittäin, sehän 
on kuitenkin vielä sellaisen vivun takana, etteivät muutokset vaikuta Voikon 
malagaa käyttävään tuotantokoodiin millään tavalla.

Käsittääkseni teillä olisi olemassa HFST-morfologioita myös muille kielille 
kuin suomelle? Nythän libvoikko on siinä suhteessa rajoittunut, että se ei 
varsinaisesti tue muita kieliä. Minulla oli joka tapauksessa tarkoituksena 
alkuvuodesta 2010 tehdä joitakin yhteensopivuuden rikkovia muutoksia libvoikon 
C-rajapintaan, ja tässä yhteydessä olisi varsin hyvin mahdollista muuttaa 
kirjastoa niin, että se voisi samanaikaisesti palvella muitakin kuin yhtä 
kieltä. Voisin myös huolehtia tuen lisäämisestä OpenOffice-lisäosaan ja 
Enchantiin, koska tunnen tuon koodin ja tiedän, mitä muutoksia niihin 
tarvitaan. Tietysti jo nyt SVN:ssä oleva versio kelpaa alustavaan testailuun, 
mutta kovin pitkälle sillä ei pääse, kun korjausehdotukset generoiva algoritmi 
on viritetty suomalaisia kirjoitusvirheitä varten ja sovelluksissa joutuu aina 
asettamaan tekstin kieleksi suomen, jotta oikoluku menisi Voikon kautta.

Toki esimerkiksi openoffice.org-voikosta pystyy tarvittaessa tekemään sopivia 
kohtia muuttamalla mukautetun version jollekin toiselle kielelle. Tein itse 
viime vuonna tuolla menetelmällä hspell-pohjaisen heprean kielen oikolukijan 
(http://voikko.svn.sourceforge.net/viewvc/voikko/branches/ooovoikko/hspell/) 
joka kyllä valmistui parissa päivässä ja kuulemma toimikin. Mutta 
hepreankielisestä yhteisöstä ei löytynyt tuolle ylläpitäjää, joten projekti 
jäi sitten siihen. Eli ylläpidossa on usein paljon suurempi vaiva kuin 
varsinaisessa koodaamisessa, ja tätä vaivaa vähentäisi tuntuvasti, jos HFST-
oikolukijat toimisivat suoraan samassa lisäosassa Voikon kanssa.

Harri



More information about the voikko mailing list