[voikko-devel] Suomi-malaga ja Sukija versio 0.8 julkaistu

Harri Pitkänen hatapitk at cc.jyu.fi
Sun Sep 17 16:13:27 EEST 2006


On Sunday 17 September 2006 13:18, Hannu Väisänen wrote:
> http://joyds1.joensuu.fi/sukija/sukija.html
>
> Suorat linkit:
>
> http://joyds1.joensuu.fi/sukija/sukija-0.8.tar.bz2
> http://joyds1.joensuu.fi/sukija/suomi-malaga-0.8.tar.bz2
>
> Sukija osaa indeksoida sekä ISO-8858-15 että UTF-8 -koodattuja
> tiedostoja.
>
> Suomi-malagan seuraavassa versiossa (0.9) mahdollisimman suuri
> osa tiedostosta suomi.all on generoitu taivutuskaavojen
> esimerkkisanoista. Versio 0.8 on olemassa lähinnä siksi, että
> version 0.9 tuloksia voidaan verrata siihen. Niiden pitäisi
> mieluimmin olla samat. (-:
>
> Versio 1.0 voisi olla sitten Sukija- ja Voikko-versioitten
> yhdistetty versio.

suomi.all -tiedoston muutokset ovat jo nyt nykyiseen Voikko-versioon nähden 
aika suuria: diffstat sanoo 2261 insertions(+), 1175 deletions(-)
Tämä on aika paljon siihen nähden, että en tiedä ollenkaan millä tavalla nuo 
muutokset vaikuttavat oikoluvussa sanojen tunnistamiseen.

Ehdotan alustavasti (siis vasta harkittavaksi, ei sen enempää) seuraavanlaista 
järjestelyä: Kun Suomi-malagasta julkaistaan versio 1.0, tehdään SVN:ssä 
siirto trunk/suomimalaga -> branches/suomimalaga/0.7.x ja tehdään versiosta 
1.0 uusi trunk/suomimalaga. Samalla mietitään, mitä muita suuria muutoksia 
halutaan tehdä. Esimerkkinä vaikkapa tiedoston suomi.mor kirjoittaminen 
uudelleen tai automaattinen generointi (josta on jo ollut puhetta), mutta 
muitakin parannuksia minulla on mielessä. Kehitysvaiheessa ei vielä välitetä 
siitä, toimiiko kokonaisuus ollenkaan. On ihan luvallista rikkoa oikoluku 
täydellisesti vaikka useaksi kuukaudeksi, jos siihen on perusteltu syy. 
Vakaita versioita julkaistaan edelleen vanhan suunnitelman mukaan 
0.7.x-haarasta. Erityisesti kaikki sanaston kehitys tapahtuisi tuossa 
vakaassa haarassa.
Tämä ei koskisi pelkästään Suomi-malagaa, mutta myös libvoikkoa.
Kun kaikki ovat saaneet haluamansa suuret muutokset tehtyä, rauhoitetaan taas 
tilanne ja lopuksi julkaistaan Voikko 2.0. Käytännössä tämän version julkaisu 
olisi ajankohtaista ehkäpä loppuvuodesta 2007.

Harri



More information about the devel mailing list