[voikko] Voikon morfologian siirto transduktoriksi
"Harri Pitkänen"
hatapitk at iki.fi
Wed Apr 25 19:44:46 EEST 2012
Olen vihdoin aloittelemassa monta vuotta suunnitteilla ollutta projektia
Voikon morfologisen kuvauksen siirtämisestä Malaga-muodosta
transduktoriksi. Tämä on varsin työläs muutos, joten olen lykännyt sen
aloittamista aika kauan (ensimmäisen kerran olen tätä vakavasti
suunnitellut jo alkuvuodesta 2008).
Arvelen, että siirto valmistuu vuoden 2013 aikana. Tämä on tosin aika
lailla hihasta vedetty arvio. Koska teen tätä vapaa-ajallani kaiken muun
ohella, en pysty sanomaan, kuinka paljon ehdin tähän keskimäärin
kuukaudessa panostamaan, joten lopullinen aikataulu voi heittää paljonkin.
== Vaikutukset Voikon ja Sukijan kehittäjille ==
Suomi-malagan lähdekoodeihin tulee uusi alahakemisto "vvfst" ja Makefileen
samanniminen kohde. Teknisesti ajatuksena on todellakin mahdollisimman
suoraviivaisesti portata nykyisen suomimalaga/voikko-hakemiston sisältö
uuteen formalismiin.
On ehkä hiukan hämäävää, että kehitän Suomi-malagan alla koodia, jolla ei
ole tekemistä Malagan kanssa. Mutta asiaa voi ajatella siitäkin
näkökulmasta, että meillä on tuolla jo nyt hakemistoja, jotka ovat
yhteisiä kahden eri morfologian (Sukija ja Voikko) välillä. Sukijalla ja
Voikolla on lisäksi molemmilla oma hakemistonsa. Nyt näiden voikko- ja
sukija-hakemistojen rinnalle tulee kolmas morfologiakohtainen hakemisto,
joka samaan tapaan hyödyntää yhteisissä hakemistoissa olevaa dataa.
Eli käytännössä muutoksella ei ole vaikutusta kehittäjille, jotka eivät
ole siitä kiinnostuneita. Sukijan ja Malaga-pohjaisen Voikon kehitys
jatkuu entiseen tapaan.
Automaattisiin testeihin (voikkotest) tulee VFST-morfologiaan liittyviä
testejä, joten ne eivät mene läpi, jos kehittäjällä ei ole tarvittavia
työkaluja asennettuna. Käytännössä tarvittavat työkalut ovat SVN-versio
libvoikosta ja HFST jossakin kokoonpanossa.
Voikon Malaga- ja VFST-morfologioista on tarkoitus tehdä niin
samankaltaiset kuin se järkevästi on mahdollista. Sanastoon ei tule tämän
takia muutoksia, ellei se osoittaudu aivan välttämättömäksi (enkä tosiaan
usko muutosten olevan tarpeen). Siksi sanaston kokoamisen käytäntöihin ei
tule muutoksia, ja sanastotyötä voi tehdä entiseen tapaan koko
muutosprosessin ajan. Uusia versioita julkaistaan vanhaan tapaan, ja
Voikon Malaga-pohjaista morfologiaa kehitetään myös siirtymävaiheen
aikana.
== Vaikutukset Voikon levittäjille ja Voikkoa käyttävien ohjelmistojen
kehittäjille ==
Kehitysvaiheen aikana mikään ei muutu Linux-paketoinnin tai libvoikon muun
kehityskäytön näkökulmasta.
Kun VFST-morfologia on valmis korvaamaan Malaga-morfologian, täytyy
tarvittavat työkalut (todennäköisesti HFST) paketoida mukaan jakeluihin.
Samalla kuitenkin Malaga jää tarpeettomaksi, joten siitä voi luopua, jos
sille ei ole muuta käyttöä. HFST on aktiivisesti kehittyvä ja ylläpidetty
ohjelmisto. Malagaa ei enää kehitetä ja ylläpitokin on aika satunnaista,
joten tämä on varmasti tervetullut kehitysaskel. Lisäksi VFST-muotoiset
sanastot ovat oletusmuodossaan arkkitehtuuririippumattomia, joten
arkkitehtuurikohtaisista voikko-fi-sanastoista päästään eroon.
Libvoikkoa käyttäville ohjelmistoille ja niiden kehittäjille muutoksella
ei ole vaikutusta.
== Vaikutukset Voikon käyttäjille ==
Voikon käyttäjille muutoksen pitäisi näkyä korkeintaan siten, että
ohjelmiston toiminta kokonaisuudessaan voi nopeutua hiukan. Muutoksen
jälkeen voimme myös toteuttaa uusia toimintoja, jotka Malagalla eivät
olleet järkevästi mahdollisia, kuten esimerkiksi taivuttava
synonyymisanasto ja monipuolisemmat kielioppitarkistukset.
== Muut kysymykset ==
VFST ei ole tainnut tulla tällä listalla aiemmin mainituksi. Siitä löytyy
lisää tietoa täältä (sekä myöhemmistä saman listan viesteistä):
http://lists.puimula.org/pipermail/libvoikko/2012-February/000413.html
Jos on muita kysymyksiä, vastaan niihin mielelläni. En kuitenkaan aio
tarkemmin dokumentoida suunnitelmiani tämän vuoden mittaisen projektin
suhteen, ellei joku vakavasti halua perehtyä nykyiseen Voikon
Malaga-morfologiaan niin tarkasti, että pystyisi auttamaan. Tämä kehitys
lähtee liikkeelle pitkälti testilähtöisesti kokeilemalla ja laitan palasia
SVN:ään aina kun uudet testit menevät läpi.
Harri
More information about the voikko
mailing list