[voikko-devel] Kotuksen sanalistasta puuttuvia sanoja

Harri Pitkänen hatapitk at cc.jyu.fi
Sat Jan 6 11:48:06 EET 2007


On Saturday 06 January 2007 01:00, Teemu Likonen wrote:
> Harri Pitkänen kirjoitti:
> > Liitteenä lista sanoista, joita ei löydy Kotuksen julkaisemasta
> > sanalistasta, mutta jotka ovat Joukahaisessa oikolukusanastoon
> > kuuluvina sanoina. Tällaisia sanoja löytyi 1862.
>
> Mahtavaa. Voisiko listan viedä SVN:ään ja merkitä vaikka sanan eteen
> miinusmerkin (-), mikäli ehdottaa sen poistamista oikolukusanastosta.
> Kun lista on käyty läpi ja kaikkien asiasta kiinnostuneiden kommentit
> kuultu, niin sitten vasta mennään listan kanssa Joukahaiseen. Näin
> listan kanssa voi työskennellä useampi henkilö yhtä aikaa - eli me
> molemmat. :)

Olin ajatellut lähestyä tätä vähän toisenlaisella tavalla. SVN:ään 
laitettaisiin lista, johon tulee sanat joiden status tarkoituksellisesti 
tavalla tai toisella poikkeaa Kotuksen listan ja Joukahaisen välillä. Eli 
siis sana on tarkoituksella Joukahaisessa vaikka sitä ei ole Kotuksen 
listassa, tai sanalla on tarkoituksellisesti erilainen taivutusluokka. Tästä 
seuraa muutamia etuja ehdottamaasi menettelyyn verrattuna:

- Sama lista toimii, vaikka eroavaisuuksia etsivään skriptiin tulisi muutoksia 
(niitä vielä tulee ainakin tänään ja huomenna).
- Sama lista toimii, vaikka Kotus julkaisisi uuden version sanalistastaan. 
Tällöin meidän ei siis tarvitse käydä koko listaa uudestaan läpi, vaan voimme 
keskittyä ainoastaan uuteen materiaaliin.
- Yksittäisiin sanoihin liittyvät kommentit tulisivat aina Joukahaiseen. 
Postituslistalla käytävä keskustelu on kyllä nopeampaa kun käsitellään 
kerralla suuria joukkoja sanoja, mutta siinä on se ongelma ettei informaatio 
käytännössä säily myöhempää käyttöä varten. Eli jos vaikka parin vuoden 
päästä joku haluaa ryhtyä uudestaan arvioimaan sanojen sopivuutta oikolukuun, 
hän ei luultavasti osaa tai jaksa etsiä vanhoja keskusteluja postituslistan 
arkistoista vaan toimii ainoastaan Joukahaisessa olevan tiedon perusteella.

Oikeastaan tuon kotus-diff -skriptin voisi laittaa automaattisesti tutkimaan 
sanastoa kerran vuorokaudessa ja julkaisemaan selvittämättömät eroavuudet 
(eli siis tapaukset, joissa sanatiedoissa on kiinnostavia eroja ja sanaa ei 
ole mainittu SVN:ssä olevassa tunnettujen poikkeavuuksien listassa) suoraan 
www-sivulle näkyviin laitettavaan tekstitiedostoon.

Harri



More information about the devel mailing list