[hunspell-fi-devel] Perusmuodossa olevien sanojen kerääminen

Harri Pitkänen hatapitk at cc.jyu.fi
Sun Oct 30 10:17:34 EET 2005


[ CC Jorille, koska tässä viestissä esitetty idea muistuttaa aika paljon sitä, 
mistä olen hänen kanssaan keskustellut. Jori: sinun ehkä kannattaa käydä 
osoitteessa www.hunspell-fi.org ja liittyä tälle postituslistalle. Lista on 
ollut toiminnassa nyt pari päivää, vaikka itse sivuston julkistetaan vasta 
ensi viikolla. ]

On Sunday, 30. Octoberta 2005 01:42, Reijo Tomperi wrote:
> Tuli mieleen tälläinen idea sanojen keräämiseksi:
>
> Idea lyhyesti:
> Pistetään pystyyn yksinkertainen php-sivu, joka ottaa käyttäjältä
> vastaan sanoja perusmuodossa. Jos sanaa ei vielä ole olemassa
> kannassa/sanalistassa, se lisätään kantaan/sanalistaan. Tästä kerätystä
> listasta kehittäjät voivat sitten katsoa ja varata itselleen pätkän
> sanoja ja alkaa sitten pohtimaan niille taivutusluokitusta ja lähettää
> nämä sitten vaikka perinteistä reittiä eteenpäin.
>
> Etuja tästä järjestelmästä:
> - Varsin helppo ja nopea pystyttää (minä voin esim. tehdä sellaisen)
> - Myös kielitaidottomat pystyisivät osallistumaan, koska lähes jokainen
> osaa kertoa sanan perusmuodon, joten kehittäjien määrä voisi kasvaa.
> - Kielitaitoisilla ei kuluisi aikaa puuttuvien sanojen metsästykseen,
> jos joku toinen etsisi ne valmiiksi.
> - Päällekkäisen työn vaara vähenisi, koska listoja päivitettäisiin
> reaaliajassa ja jokainen työstäisi vain varaamiaan sanoja.
> - Jos kaikki uudet sanat viedään tuota kautta, ohjelma voi toimia täysin
> itsenäisesti omassa kannassaan/tiedostossaan ja pysyä silti aina
> ajantasalla (koska sillehän riittää että se tietää perusmuodot sanoista).
> - Työ porrastuisi tämän lisävaiheen myötä ja siten työtä voisi tehdä
> projektin eteen entistä pienemmän ajan puutteissa ja entistä pienemmällä
> vaivalla -> ihmiset saattaisivat käyttää enemmän aikaa työskentelyyn.
>
> Huonoja puolia:
> - Mahdolliset häiriköt/taidottomat voisivat iskeä järjestelmään ja
> lisäillä epävalideja sanoja. (tallennuksen yhteydessä ehkä aihetta
> tallettaa jokin tieto myös lisääjästä ja lisäysajankohdasta, jotta
> tälläiset voi helposti poistaa).
> - Nyt en taas tiedä näistä lakiasioista. Eli pitäisikö tuo
> sisäänkirjautuminen vaatia joka tapauksessa, että käyttäjiltä voi
> paremmin vaatia copyrightien kunnioittamista ja samalla täsmentää
> ohjeita sen suhteen minkälaisia sanoja sopii lisäillä. Tällöinhän
> samalla mahdollinen häirikköongelma poistuisi todennäköisesti kokonaan.
> Sisäänkirjautumisen kanssakin uusia käyttäjiä saattaisi löytyä, koska
> moni saattaa epäröidä projektiin liittymistä kielitaidottomuuteensa
> vedoten (itse ainakin epäröin pitkään juuri siksi).
>
> Päätettäviä asioita:
> - Pystytetäänkö ollenkaan vai ei.
> - Sisäänkirjautuminen vai ei.
> - Tietokanta vai tiedosto (tietokanta tietty parempi, jos palvelin
> sellaista tukee).
>
>
> Kommentteja?

Jotain tällaista tosiaan olisi hyvä tehdä, ja Jori on miettinyt samanlaista 
järjestelyä. Mielestäni paras paikka tällaiselle olisikin Jorin tekemän 
www-liittymän yhteydessä. Jorin liittymää ei voida siirtää hunspell-fi.org 
-palvelimelle, koska meillä ei ole oikeuksia käyttää itse Hunspelliä siellä. 
Mutta Reijon suunnittelema tietokanta voisi tarvittaessa sijaita siellä. 
Tässä tosiaan tietokanna käyttäminen on järkevämpää kuin tavallisen 
tekstitiedoston, koska sanoja jouduttaisiin sekä lisäämään että poistamaan 
(ja merkitsemään jonkun varaamiksi) reaaliajassa. Tuosta tekijänoikeusasiasta 
olisi tosiaan hyvä olla jonkinlainen selvä ja tiukasti muotoiltu maininta, 
mutta lisäksi voisi olla järkevää, että liittymän kautta voisi syöttää vain 
yhden sanan kerrallaan mikä vaikeuttaisi väärinkäyttöä. Sisäänkirjautumisen 
vaatiminen saattaisi kuitenkin jo mennä liiallisuuksiin, koska tuonne 
kuitenkin kerättäisiin vain perusmuodossa olevia sanoja. Olisiko mahdollista 
tehdä vaikka niin, että ohjelma rajoittaisi yhdestä IP-osoitteesta 
syötettävien sanojen määrän muutamaan kymmeneen päivässä, ja aktiivisempien 
käyttäjien kanssa sovittaisiin sitten erikseen tavasta, jolla tuon 
rajoituksen voisi kiertää?

Kuitenkin olen sitä mieltä, että tällaista liittymää ei kannata ottaa käyttöön 
ennen kuin olemme käyneet läpi Ispell-sanaston, jossa edelleen on tuhansia 
lisäämättömiä sanoja. Tuo sanastohan on julkaistu GPL-lisenssillä, joten sitä 
voimme käyttää aivan ongelmitta. Ja myöskin sitä ennen meidän pitää edetä 
noiden verbien kanssa, koska muuten me hukkuisimme siihen verbitulvaan, joka 
tuon liittymän kautta tulisi. Minulla on tarkoitus aloittaa verbien 
luokittelu jo marraskuussa, ja jos viitsin käyttää siihen osan 
joululomastani, niin ehkäpä tammi-helmikuussa voisi sitten ottaa tällaisen 
liittymän käyttöön.

Idea Reijolle: voisiko sitä sinun tekemääsi taivutusluokkien "arvausskriptiä" 
muokata niin, että sen läpi voisi ajaa tuon Ispell-sanaston ja skripti 
luokittelisi sanat valmiiksi todennäköisimpiin taivutusluokkiin ja 
tallentaisi tuloksen tiedostoon? Siitä olisi sitten suhteellisen helppoa 
käydä läpi sanoja luokka kerrallaan ja tarkistaa, että ne tosiaan menivät 
oikeisiin luokkiin. Tätä voisi käyttää myös myöhemmin tuon www-liittymän 
kautta saatujen sanojen esikäsittelyyn.

Harri



More information about the devel mailing list