[voikko-devel] Kotuksen sanalistasta puuttuvia sanoja
Harri Pitkänen
hatapitk at cc.jyu.fi
Sat Jan 6 20:46:24 EET 2007
On Saturday 06 January 2007 15:55, Teemu Likonen wrote:
> Harri Pitkänen kirjoitti:
> > Jos sana säilytetään Joukahaisessa, vaikka sitä ei ole Kotuksen
> > listassa, ei mielestäni tarvita mitään ihmeempiä perusteluja.
>
> Kaikki sanathan säilyvät Joukahaisessa. Useimmiten ne vain siirtyvät
> pois oikoluvun perussanastosta. Tarkoititko juuri perussanaston
> ulkopuolisia sanoja? Nythän tuossa vain-joukahaisessa.txt -listassa on
> myös erityisalojen sanoja. Ottaisin mielelläni hommaksi nimenomaan
> perussanaston siivoamisen puhekielestä, vieraskielisistä ym. turhista
> tai haitallisista sanoista.
En ole enää ihan varma mitä tarkoitin, mutta joka tapauksessa ei ole mitenkään
tarpeen erityisesti perustella sitä että pidämme omassa sanastossamme jotain
sanaa jota Kotuksen listassa ei ole. Erityisalojen sanat jäivät tuohon
listaan vain vahingossa, uudessa versiossa niitä ei enää ole. Ei myöskään
sanoja jotka on merkitty lipulla "ala: vanhaa kieltä" vaikka tällaiset
tulevatkin oletusarvoisesti mukaan perussanastoon. Voitanee olettaa, että jos
tuo lippu on asetettu, on sanan mukaan ottamista perussanastoon jo mietitty.
Uusi versio listasta on automaattisesti joka yö päivittyvässä html-tiedostossa
osoitteessa http://joukahainen.lokalisointi.org/kotus-diff.html
Vaikka tuo on html-muodossa, huomioin myös tekstieditorien käyttäjät:
Tiedoston voi oleellisilta osin muuttaa tekstitiedostoksi poistamalla grepin
avulla kaikki rivit jotka alkavat merkillä "<".
Homma menisi siis niin, että Joukahaiseen korjataan oman harkinnan mukaan mitä
korjataan, ja ne sanat joihin ei katsota tarpeelliseksi tehdä korjauksia
voidaan lisätä tiedostoon trunk/data/kotus-diff-ignore.txt jolloin ne jäävät
pois tuosta eroavaisuuslistasta häiritsemästä. Uusi versio listasta sisältää
myös huomautuksia taivutusluokituksen eroista, mutta kaikissa tapauksissa nuo
huomautukset eivät välttämättä ole aiheellisia. Esimerkiksi luokkien 5 ja 6
välillä olevat eroavaisuudet ovat todellisia, mutta taas luokkien 62 ja 68
eroavaisuudet ovat luultavasti vain harjaa ja johtuvat siitä, että
Joukahainen ei vielä tunne luokkaa 62 ollenkaan.
Teemu: jos haluat, voit toki tehdä niinkin että teet muutosehdotukset
tekstitiedostoon ja postitat tänne listalle tarkistettavaksi mikäli sellainen
tuntuu tehokkaammalta. Itse olen nyt tulevina viikkoina melko kiireinen,
mutta Joukahaisen kautta tehtyjä muutoksia kyllä seurailen ja samoin tänne
listalle lähetettyjä kysymyksiä. Itse ajattelin ajan salliessa tehdä
selvimpiä muutoksia suoraan Joukahaisen kautta. Voin edetä vaikka
aakkosjärjestyksessä takaperin, jolloin vältämme päällekkäisen työn
tekemistä. Parasta varmaan keskittyä aluksi vain noihin "vain
Joukahaisessa"-sanoihin, kun tuo taivutusluokitus on vielä vähän työn alla.
Harri
More information about the devel
mailing list