[voikko] Tulevia Voikko-julkaisuja
Harri Pitkänen
hatapitk at iki.fi
Tue Oct 26 19:32:49 EEST 2010
Aion julkaista marraskuun aikana uudet versiot libvoikosta (3.1) ja Suomi-
malagasta (1.8). Molempien julkaiseminen samoihin aikoihin on tällä kertaa
perusteltua, sillä monet uusista ominaisuuksista sekä bugikorjauksista
vaativat muutoksia molempiin komponentteihin.
Jos verrataan yhdistelmään libvoikko 3.0 + Suomi-malaga 1.7, niin
merkittävimmät suomen kielen käsittelyyn vaikuttavat muutokset ovat seuraavat:
* Kieliopin tarkistin osaa varoittaa yleisistä, puhekielenomaisista
sanavalinnoista verbiketjuissa: "Hän alkaa lukemaan kirjaa" -> "Hän alkaa
lukea kirjaa". Korjausehdotusta ei kuitenkaan tässä versiossa vielä
muodosteta. Käytännössä korjausehdotuksen muodostaminen näille tai muille
samantapaisille virheille ei onnistukaan ennen kuin siirrymme Malagasta HFST:n
käyttöön.
* Aikaisemmin testattavana ollut varoitus väärästä verbistä kieltosanan kanssa
on toki myös mukana: "Hän ei alkaa lukea kirjaa" -> "Hän ei ala lukea kirjaa".
Tässäkään ei varsinaista korjausehdotusta anneta, syy on sama kuin edellä.
* Parannuksia paikannimien automaattiseen tunnistamiseen. Näiden ansiosta sekä
oikoluvussa että kieliopin tarkistuksessa hyväksytään monia aikaisemmin
virheiksi luokiteltuja paikannimiä, esimerkiksi "Pispalanharju".
* Parannuksia roomalaisten numeroiden sekä taivutettujen numeroin esitettyjen
lukusanojen käsittelyyn sekä oikoluvussa että kieliopin tarkistuksessa.
* Kauan sitten raportoitu bugi viittauksista kielenaineksiin on vihdoin
korjattu. Eli yhdyssana "ja-sana" sekä muut vastaavat hyväksytään oikoluvussa.
Muitakin bugikorjauksia ja parannuksia on tehty, mutta tässä varmaan
tärkeimmät. Lisäksi libvoikon puolella on tehty joitakin muutoksia, joiden
tarkoituksena on edistää pohjoissaamen oikolukuasiaa. Tässä asiassa libvoikko
3.1 ei kuitenkaan tuo vielä mitään merkittävää uutta, eli suomi Malaga-
analysaattorin kautta on käytännössä edelleen ainoa peruskäyttäjien
näkökulmasta toimiva kieli oikoluvussa.
Testaukseen voi käyttää Webvoikkoa
http://joukahainen.puimula.org/webvoikko/spell
tai ladata Suomi-malagan SVN:stä ja libvoikon lähdekoodit SVN:stä tai
osoitteesta
http://www.puimula.org/htp/testing/libvoikko-3.1pre6.tar.gz
Virallisemmat julkaisukandidaatit tulevat myöhemmin, mutta tuskinpa niihin on
enää mitään merkittäviä muutoksia tulossa.
Tällä postituslistalla on luultavasti useita, jotka eivät ainakaan kovin
aktiivisesti seuraa libvoikko-listaa. Siellä on viime aikoina suunniteltu
uutta tiedostomuotoa HFST-pohjaisille oikolukusanastoille. Uskon, että vuoden
2011 aikana tuki HFST-oikoluvulle saadaan libvoikossa täysin käyttökelpoiseen
kuntoon. Tämän toteutumisesta en varsinaisesti voi luvata mitään
konkreettista, koska asia on vain osittain minusta kiinni (Flammie + muut ovat
koodailleet enemmän tätä puolta). Mutta käsitykseni mukaan HFST:n versio 3
alkaa olla aika lähellä "valmista" tässä mielessä eikä mitään pahoja teknisiä
ongelmia ole jäljellä.
Ensivaiheessa tuotantokäyttöön sopiva HFST-oikoluku saadaan luultavasti
pohjoissaamelle ja ehkä muutamalle muullekin kielelle, mutta näistä en vielä
osaa juuri sanoa. Suomi-malagassa on sen verran paljon juuri Voikkoa varten
kehitettyjä ominaisuuksia, että niiden toteuttaminen uudelleen HFST:llä ei ole
ihan parin päivän juttu, vaikka nykyinen Omorfi hoitaakin perusasiat varsin
hienosti. Mutta jossain vaiheessa tämäkin urakka olisi tehtävä, jotta pääsemme
toteuttamaan niitä ominaisuuksia, joihin Malagalla ei päästä käsiksi.
Harri
More information about the voikko
mailing list