[voikko-devel] Suomi-malagoiden yhdistäminen

Harri Pitkänen hatapitk at cc.jyu.fi
Wed Feb 21 11:33:54 EET 2007


On Wednesday 21 February 2007 10:42, Hannu Väisänen wrote:
> Ongelma oli se, että kun suomi.all oli vielä kirjoitettu käsin, osa
> taivutuskaavoista oli kahdesti: tiedostossa suomi.all ja tiedostossa
> suomi.lex (ja ne eivät aina olleet samat). Olen muuttanut jälkimmäisen
> käyttämään taivutuskaavojen esimerkkisanoista generoituja
> taivutuskaavoja, jotka siis ovat samat kuin generoidussa tiedostossa
> suomi.all.
>
> Mitäpä jos ensin muutan tiedostoa trunk/suomimalaga/suomi.lex niin,
> että siinä ja original-version tiedostossa suomi.lex olevat samat
> rivit ovat samassa järjestyksessä, ja katsotaan sitten, miten
> jatketaan.

Tämä sopii hyvin.

> > Myös Suomi-malagan Makefileä pitää parannella Voikkoa varten. Olen jo
> > kokeellisesti tehnytkin uuden targetin "voikko-install", mutta tarvitsen
> > myös targetit "dist-gzip" (täysi lähdekoodipaketti) ja "voikko-dict-gzip"
> > (mukautettavan Voikko-sanaston osittainen lähdekoodipaketti). SVN:stä
> > pitää siivota pois postscript-tiedostot, ja Suomi-malagan lähdekoodipuun
> > päähakemisto pitäisi mielellään järjestää niin, että suomea osaamaton
> > ihminenkin suunnilleen hahmottaisi paketin rakenteen. Tällaisia asioita
> > ainakin tarvitaan jos halutaan Suomi-malagat yhdistää.
>
> Tehdään näin. Kerro vaan, mitä siivotaan pois ja miten jäljelle
> jäävät tiedostot järjestetään.

Teen järjestelyt suoraan trunk-versioon, voit sitten kopioida ne sieltä, tai 
ilmoittaa postituslistalla jos olet eri mieltä jostain muutoksesta. 
Tiedostojen lisenssitietojen yhtenäistämisestä pitää sopia erikseen. Nykyisin 
useimmissa tiedostoissa oleva lisenssisuomennos voisi olla hyvä poistaa, 
koska ainoastaan englanninkielinen versio lisenssistä on laillisesti pätevä 
ja suomennokset voivat aiheuttaa ongelmia jos lukija ei osaa suomea. 
Suomennoksen voi jättää vaikka tiedostoon LUE.MINUT.


> Sanaston suhteen olen ajatellut seuraavaa: Siirrettään sanastosta pois
> taivutustyyppeihin perustuva virheellisten/vanhojen kirjoitusasujen
> tunnistus. Näitä ovat muistaakseni vain tyypit ammo(i)ttaa (i:tön
> muoto oikein nykysääntöjen mukaan) sekä kirjo(i)ttaa ja julka(i)sta
> (i::lliset muodot oikein). Sukijaa varten nämä voi joko generoida
> tiedostossa suomi.all (kuten original-versiossa tehdään tyypeille
> *keltanen ja *hevoinen) tai tunnistaa indeksointiohjelmassa samaan
> tapaan kuin voikko_suggest ehdottaa korjauksia kirjoitusasuun.
> Jälkimmäisellä tavalla voi tunnistaa myös sivistyssanojen
> vanhoja/virheellisiä kirjoitusasuja: obligatio, resolutio, alkohooli. [1]
> (Älkää kuitenkaan tehkö vielä mitään tälle asialle. :-)
>
> Tämän jälkeen sanastossa olisi vain yksittäisiä vääriä/vanhentuneita
> kirjoitusasuja, esim. *ensimäinen, *sydämmellinen.

Tämä käy oikein hyvin.

Harri



More information about the devel mailing list