[voikko-devel] Joukahaisesta puuttuvat sanat

Harri Pitkänen hatapitk at cc.jyu.fi
Thu Mar 29 21:42:08 EEST 2007


Kotuksen sanalistassa olevat Joukahaisesta puuttuvat sanat on nyt listattu 
sivulla http://joukahainen.lokalisointi.org/kotus-diff.html
Tuolla listalla ei ole sanoja, jotka
1) ovat Joukahaisesta sanatietueena,
2) tunnistuvat oikoluvussa muuta kautta tai
3) löytyvät tiedostosta kotus-diff-ignore.txt.

Mitä tällä tiedolla sitten pitäisi tehdä? Sanoja on melko paljon, tällä 
hetkellä 11180 kappaletta (mikä on kuitenkin hiukan vähemmän kuin joulukuussa 
tekemäni yksinkertaisemman testauksen perusteella saatu luku, 12404 puuttuvaa 
sanaa). Osa sanoista on hyvinkin outoja, joten lähtisin etenemään asiassa 
niin, että poimitaan sieltä ensin silmämääräisesti tärkeimmät tapaukset, 
jotka olisi sanastossa hyvä olla mukana. Nämä lisätään Joukahaiseen, joko 
omina tietueinaan tai jonkin muun sanan kirjoitusasuna. Sanan lyhyt selitys 
kannattaa kirjata Joukahaiseen, jos lisättävä sana on suhteellisen 
harvinainen.

Osa sanoista saattaa olla myös sellaisia, että ne tulee käsitellä suoraan 
Suomi-malagassa seikkasanoina tai etuliitteinä. Etuliitteiden tapauksessa 
kannattaa lisätä sana myös tiedostoon kotus-diff-ignore.txt. Puhe- ja 
vieraskieliset sanat voi lisätä Joukahaiseen ja merkitä sopivalla lipulla.

Sanoja lisätessä kannattaa toki huomioida niistä automaattisesti muodostuvat 
johdokset ja yhdyssanat, ettei tule tarpeettomasti lisättyä ylimääräisiä 
tietueita. Mutta ei niiden varomiseen silti kannata kovin paljon aikaa 
uhrata, eikä niitä kannata lähteä poistamaan jälkikäteen, jos niiden voi 
kuvitella olevan myöhemmin hyödyllisiä tavalla tai toisella.

Lista päivitetään kerran vuorokaudessa, ja sitä oikoluettaessa päivitysohjelma 
käyttää aina Joukahaisesta generoitua versiota tiedostosta joukahainen.lex 
(ei siis SVN:ssä olevaa versiota). Sivuvaikutuksena on se, että myös 
webvoikon (http://joukahainen.lokalisointi.org/webvoikko) oikoluvussa on 
tästä lähtien käytössä tuore, edellisöinen sanasto, vaikka sitä ei olisi 
vielä SVN:ään vietykään.

Harri



More information about the devel mailing list