[voikko-devel] Kotuksen sanalistasta puuttuvia sanoja
Harri Pitkänen
hatapitk at cc.jyu.fi
Sat Jan 6 11:48:06 EET 2007
On Saturday 06 January 2007 01:00, Teemu Likonen wrote:
> Harri Pitkänen kirjoitti:
> > Liitteenä lista sanoista, joita ei löydy Kotuksen julkaisemasta
> > sanalistasta, mutta jotka ovat Joukahaisessa oikolukusanastoon
> > kuuluvina sanoina. Tällaisia sanoja löytyi 1862.
>
> Mahtavaa. Voisiko listan viedä SVN:ään ja merkitä vaikka sanan eteen
> miinusmerkin (-), mikäli ehdottaa sen poistamista oikolukusanastosta.
> Kun lista on käyty läpi ja kaikkien asiasta kiinnostuneiden kommentit
> kuultu, niin sitten vasta mennään listan kanssa Joukahaiseen. Näin
> listan kanssa voi työskennellä useampi henkilö yhtä aikaa - eli me
> molemmat. :)
Olin ajatellut lähestyä tätä vähän toisenlaisella tavalla. SVN:ään
laitettaisiin lista, johon tulee sanat joiden status tarkoituksellisesti
tavalla tai toisella poikkeaa Kotuksen listan ja Joukahaisen välillä. Eli
siis sana on tarkoituksella Joukahaisessa vaikka sitä ei ole Kotuksen
listassa, tai sanalla on tarkoituksellisesti erilainen taivutusluokka. Tästä
seuraa muutamia etuja ehdottamaasi menettelyyn verrattuna:
- Sama lista toimii, vaikka eroavaisuuksia etsivään skriptiin tulisi muutoksia
(niitä vielä tulee ainakin tänään ja huomenna).
- Sama lista toimii, vaikka Kotus julkaisisi uuden version sanalistastaan.
Tällöin meidän ei siis tarvitse käydä koko listaa uudestaan läpi, vaan voimme
keskittyä ainoastaan uuteen materiaaliin.
- Yksittäisiin sanoihin liittyvät kommentit tulisivat aina Joukahaiseen.
Postituslistalla käytävä keskustelu on kyllä nopeampaa kun käsitellään
kerralla suuria joukkoja sanoja, mutta siinä on se ongelma ettei informaatio
käytännössä säily myöhempää käyttöä varten. Eli jos vaikka parin vuoden
päästä joku haluaa ryhtyä uudestaan arvioimaan sanojen sopivuutta oikolukuun,
hän ei luultavasti osaa tai jaksa etsiä vanhoja keskusteluja postituslistan
arkistoista vaan toimii ainoastaan Joukahaisessa olevan tiedon perusteella.
Oikeastaan tuon kotus-diff -skriptin voisi laittaa automaattisesti tutkimaan
sanastoa kerran vuorokaudessa ja julkaisemaan selvittämättömät eroavuudet
(eli siis tapaukset, joissa sanatiedoissa on kiinnostavia eroja ja sanaa ei
ole mainittu SVN:ssä olevassa tunnettujen poikkeavuuksien listassa) suoraan
www-sivulle näkyviin laitettavaan tekstitiedostoon.
Harri
More information about the devel
mailing list