[voikko-devel] Kotuksen sanalistasta puuttuvia sanoja

Harri Pitkänen hatapitk at cc.jyu.fi
Sat Jan 6 20:46:24 EET 2007


On Saturday 06 January 2007 15:55, Teemu Likonen wrote:
> Harri Pitkänen kirjoitti:
> > Jos sana säilytetään Joukahaisessa, vaikka sitä ei ole Kotuksen
> > listassa, ei mielestäni tarvita mitään ihmeempiä perusteluja.
>
> Kaikki sanathan säilyvät Joukahaisessa. Useimmiten ne vain siirtyvät
> pois oikoluvun perussanastosta. Tarkoititko juuri perussanaston
> ulkopuolisia sanoja? Nythän tuossa vain-joukahaisessa.txt -listassa on
> myös erityisalojen sanoja. Ottaisin mielelläni hommaksi nimenomaan
> perussanaston siivoamisen puhekielestä, vieraskielisistä ym. turhista
> tai haitallisista sanoista.

En ole enää ihan varma mitä tarkoitin, mutta joka tapauksessa ei ole mitenkään 
tarpeen erityisesti perustella sitä että pidämme omassa sanastossamme jotain 
sanaa jota Kotuksen listassa ei ole. Erityisalojen sanat jäivät tuohon 
listaan vain vahingossa, uudessa versiossa niitä ei enää ole. Ei myöskään 
sanoja jotka on merkitty lipulla "ala: vanhaa kieltä" vaikka tällaiset 
tulevatkin oletusarvoisesti mukaan perussanastoon. Voitanee olettaa, että jos 
tuo lippu on asetettu, on sanan mukaan ottamista perussanastoon jo mietitty.

Uusi versio listasta on automaattisesti joka yö päivittyvässä html-tiedostossa 
osoitteessa http://joukahainen.lokalisointi.org/kotus-diff.html
Vaikka tuo on html-muodossa, huomioin myös tekstieditorien käyttäjät: 
Tiedoston voi oleellisilta osin muuttaa tekstitiedostoksi poistamalla grepin 
avulla kaikki rivit jotka alkavat merkillä "<".

Homma menisi siis niin, että Joukahaiseen korjataan oman harkinnan mukaan mitä 
korjataan, ja ne sanat joihin ei katsota tarpeelliseksi tehdä korjauksia 
voidaan lisätä tiedostoon trunk/data/kotus-diff-ignore.txt jolloin ne jäävät 
pois tuosta eroavaisuuslistasta häiritsemästä. Uusi versio listasta sisältää 
myös huomautuksia taivutusluokituksen eroista, mutta kaikissa tapauksissa nuo 
huomautukset eivät välttämättä ole aiheellisia. Esimerkiksi luokkien 5 ja 6 
välillä olevat eroavaisuudet ovat todellisia, mutta taas luokkien 62 ja 68 
eroavaisuudet ovat luultavasti vain harjaa ja johtuvat siitä, että 
Joukahainen ei vielä tunne luokkaa 62 ollenkaan.

Teemu: jos haluat, voit toki tehdä niinkin että teet muutosehdotukset 
tekstitiedostoon ja postitat tänne listalle tarkistettavaksi mikäli sellainen 
tuntuu tehokkaammalta. Itse olen nyt tulevina viikkoina melko kiireinen, 
mutta Joukahaisen kautta tehtyjä muutoksia kyllä seurailen ja samoin tänne 
listalle lähetettyjä kysymyksiä. Itse ajattelin ajan salliessa tehdä 
selvimpiä muutoksia suoraan Joukahaisen kautta. Voin edetä vaikka 
aakkosjärjestyksessä takaperin, jolloin vältämme päällekkäisen työn 
tekemistä. Parasta varmaan keskittyä aluksi vain noihin "vain 
Joukahaisessa"-sanoihin, kun tuo taivutusluokitus on vielä vähän työn alla.

Harri



More information about the devel mailing list