[voikko] Tulevia Voikko-julkaisuja

Harri Pitkänen hatapitk at iki.fi
Tue Oct 26 19:32:49 EEST 2010


Aion julkaista marraskuun aikana uudet versiot libvoikosta (3.1) ja Suomi-
malagasta (1.8). Molempien julkaiseminen samoihin aikoihin on tällä kertaa 
perusteltua, sillä monet uusista ominaisuuksista sekä bugikorjauksista 
vaativat muutoksia molempiin komponentteihin.

Jos verrataan yhdistelmään libvoikko 3.0 + Suomi-malaga 1.7, niin 
merkittävimmät suomen kielen käsittelyyn vaikuttavat muutokset ovat seuraavat:

* Kieliopin tarkistin osaa varoittaa yleisistä, puhekielenomaisista 
sanavalinnoista verbiketjuissa: "Hän alkaa lukemaan kirjaa" -> "Hän alkaa 
lukea kirjaa". Korjausehdotusta ei kuitenkaan tässä versiossa vielä 
muodosteta. Käytännössä korjausehdotuksen muodostaminen näille tai muille 
samantapaisille virheille ei onnistukaan ennen kuin siirrymme Malagasta HFST:n 
käyttöön.

* Aikaisemmin testattavana ollut varoitus väärästä verbistä kieltosanan kanssa 
on toki myös mukana: "Hän ei alkaa lukea kirjaa" -> "Hän ei ala lukea kirjaa". 
Tässäkään ei varsinaista korjausehdotusta anneta, syy on sama kuin edellä.

* Parannuksia paikannimien automaattiseen tunnistamiseen. Näiden ansiosta sekä 
oikoluvussa että kieliopin tarkistuksessa hyväksytään monia aikaisemmin 
virheiksi luokiteltuja paikannimiä, esimerkiksi "Pispalanharju".

* Parannuksia roomalaisten numeroiden sekä taivutettujen numeroin esitettyjen 
lukusanojen käsittelyyn sekä oikoluvussa että kieliopin tarkistuksessa.

* Kauan sitten raportoitu bugi viittauksista kielenaineksiin on vihdoin 
korjattu. Eli yhdyssana "ja-sana" sekä muut vastaavat hyväksytään oikoluvussa.


Muitakin bugikorjauksia ja parannuksia on tehty, mutta tässä varmaan 
tärkeimmät. Lisäksi libvoikon puolella on tehty joitakin muutoksia, joiden 
tarkoituksena on edistää pohjoissaamen oikolukuasiaa. Tässä asiassa libvoikko 
3.1 ei kuitenkaan tuo vielä mitään merkittävää uutta, eli suomi Malaga-
analysaattorin kautta on käytännössä edelleen ainoa peruskäyttäjien 
näkökulmasta toimiva kieli oikoluvussa.

Testaukseen voi käyttää Webvoikkoa

  http://joukahainen.puimula.org/webvoikko/spell

tai ladata Suomi-malagan SVN:stä ja libvoikon lähdekoodit SVN:stä tai 
osoitteesta

  http://www.puimula.org/htp/testing/libvoikko-3.1pre6.tar.gz

Virallisemmat julkaisukandidaatit tulevat myöhemmin, mutta tuskinpa niihin on 
enää mitään merkittäviä muutoksia tulossa.



Tällä postituslistalla on luultavasti useita, jotka eivät ainakaan kovin 
aktiivisesti seuraa libvoikko-listaa. Siellä on viime aikoina suunniteltu 
uutta tiedostomuotoa HFST-pohjaisille oikolukusanastoille. Uskon, että vuoden 
2011 aikana tuki HFST-oikoluvulle saadaan libvoikossa täysin käyttökelpoiseen 
kuntoon. Tämän toteutumisesta en varsinaisesti voi luvata mitään 
konkreettista, koska asia on vain osittain minusta kiinni (Flammie + muut ovat 
koodailleet enemmän tätä puolta). Mutta käsitykseni mukaan HFST:n versio 3 
alkaa olla aika lähellä "valmista" tässä mielessä eikä mitään pahoja teknisiä 
ongelmia ole jäljellä.

Ensivaiheessa tuotantokäyttöön sopiva HFST-oikoluku saadaan luultavasti 
pohjoissaamelle ja ehkä muutamalle muullekin kielelle, mutta näistä en vielä 
osaa juuri sanoa. Suomi-malagassa on sen verran paljon juuri Voikkoa varten 
kehitettyjä ominaisuuksia, että niiden toteuttaminen uudelleen HFST:llä ei ole 
ihan parin päivän juttu, vaikka nykyinen Omorfi hoitaakin perusasiat varsin 
hienosti. Mutta jossain vaiheessa tämäkin urakka olisi tehtävä, jotta pääsemme 
toteuttamaan niitä ominaisuuksia, joihin Malagalla ei päästä käsiksi.

Harri



More information about the voikko mailing list