[voikko] libvoikko HFST-transduktoreilla
Harri Pitkänen
hatapitk at iki.fi
Mon Nov 2 18:31:50 EET 2009
On Monday 02 November 2009, Flammie Pirinen wrote:
> 2009-11-01, Harri Pitkänen sanoi:
> > En löytänyt HFST:lle mitään selkeää
> > paikkaa bugien raportoimiseksi, mutta tässä olisi joka tapauksessa
> > asia, joka kannattanee jossain vaiheessa korjata.
>
> Luultavasti hfst-bugs at helsinki.fi:tä mainostetaan ainoastaan
> komentoriviohjelmien --helpeissä.
Käytän tuota sitten jos jotain muuta ongelmaa tulee vielä vastaan.
> Sourceforgessakin on kai jokin
> bugienhallinta, mutta vaikka yleensä pidän esim. bugzillan käytöstä
> sähköpostivuorien hallinnan sijaan niin sourceforgen bugisovellusta en
> ole koskaan niin sisäistänyt.
Se on kieltämättä aika outo ja kankea käyttää. SourceForge tarjoaa myös Trac-
sovellusta projektien käyttöön. Tracista minulla on ihan hyviä kokemuksia,
siinä on suhteellisen toimiva bugien hallinta, joka integroituu hyvin Tracin
wikiin sekä SVN:ään. Pahin puute siinä on se, ettei tikettien välisiä
riippuvuuksia pysty esittämään mitenkään. Mutta sama vika taitaa olla myös
SourceForgen omassa bugien hallinnassa, eikä tuo ihan välttämätön ominaisuus
olekaan pienten projektien käytössä.
> Kyllä pitäisin sitä parhaana lähestymisenä ettei tarvitse ainakaan
> toistaa työtä joka voikon saamiseksi openofficeen ja enchantiin jne. on
> jo tehty, jos ajatellaan että (h)fst-morfologioiden käyttö
> oikaisuluvuissa olisi hyödyllistä. Jos kaikki sujuu niin vaivattomasti
> kuin näyttää niin minusta tämä on melko ideaali tapa kehitellä
> fst-pohjaisia oikolukujuttuja ja testailla niitä helposti verrattuna
> mitä olen yrittänyt selvittää mm. juuri openofficeen liittämisestä.
>
> Toki alussa on vielä paljon asioita joita pitää koetella ja muutella
> eestaas ennen kuin pystyy kirjoittamaan stabiilimpaa koodia svn:ään,
> mutta jonkinlaisen perustan voin kirjoittaa tuosta melko nopeasti.
Minun puolestani SVN:ssä oleva toteutus saa muuttua vaikka päivittäin, sehän
on kuitenkin vielä sellaisen vivun takana, etteivät muutokset vaikuta Voikon
malagaa käyttävään tuotantokoodiin millään tavalla.
Käsittääkseni teillä olisi olemassa HFST-morfologioita myös muille kielille
kuin suomelle? Nythän libvoikko on siinä suhteessa rajoittunut, että se ei
varsinaisesti tue muita kieliä. Minulla oli joka tapauksessa tarkoituksena
alkuvuodesta 2010 tehdä joitakin yhteensopivuuden rikkovia muutoksia libvoikon
C-rajapintaan, ja tässä yhteydessä olisi varsin hyvin mahdollista muuttaa
kirjastoa niin, että se voisi samanaikaisesti palvella muitakin kuin yhtä
kieltä. Voisin myös huolehtia tuen lisäämisestä OpenOffice-lisäosaan ja
Enchantiin, koska tunnen tuon koodin ja tiedän, mitä muutoksia niihin
tarvitaan. Tietysti jo nyt SVN:ssä oleva versio kelpaa alustavaan testailuun,
mutta kovin pitkälle sillä ei pääse, kun korjausehdotukset generoiva algoritmi
on viritetty suomalaisia kirjoitusvirheitä varten ja sovelluksissa joutuu aina
asettamaan tekstin kieleksi suomen, jotta oikoluku menisi Voikon kautta.
Toki esimerkiksi openoffice.org-voikosta pystyy tarvittaessa tekemään sopivia
kohtia muuttamalla mukautetun version jollekin toiselle kielelle. Tein itse
viime vuonna tuolla menetelmällä hspell-pohjaisen heprean kielen oikolukijan
(http://voikko.svn.sourceforge.net/viewvc/voikko/branches/ooovoikko/hspell/)
joka kyllä valmistui parissa päivässä ja kuulemma toimikin. Mutta
hepreankielisestä yhteisöstä ei löytynyt tuolle ylläpitäjää, joten projekti
jäi sitten siihen. Eli ylläpidossa on usein paljon suurempi vaiva kuin
varsinaisessa koodaamisessa, ja tätä vaivaa vähentäisi tuntuvasti, jos HFST-
oikolukijat toimisivat suoraan samassa lisäosassa Voikon kanssa.
Harri
More information about the voikko
mailing list