[hunspell-fi-devel] Perusmuodossa olevien sanojen kerääminen
Harri Pitkänen
hatapitk at cc.jyu.fi
Sun Oct 30 10:17:34 EET 2005
[ CC Jorille, koska tässä viestissä esitetty idea muistuttaa aika paljon sitä,
mistä olen hänen kanssaan keskustellut. Jori: sinun ehkä kannattaa käydä
osoitteessa www.hunspell-fi.org ja liittyä tälle postituslistalle. Lista on
ollut toiminnassa nyt pari päivää, vaikka itse sivuston julkistetaan vasta
ensi viikolla. ]
On Sunday, 30. Octoberta 2005 01:42, Reijo Tomperi wrote:
> Tuli mieleen tälläinen idea sanojen keräämiseksi:
>
> Idea lyhyesti:
> Pistetään pystyyn yksinkertainen php-sivu, joka ottaa käyttäjältä
> vastaan sanoja perusmuodossa. Jos sanaa ei vielä ole olemassa
> kannassa/sanalistassa, se lisätään kantaan/sanalistaan. Tästä kerätystä
> listasta kehittäjät voivat sitten katsoa ja varata itselleen pätkän
> sanoja ja alkaa sitten pohtimaan niille taivutusluokitusta ja lähettää
> nämä sitten vaikka perinteistä reittiä eteenpäin.
>
> Etuja tästä järjestelmästä:
> - Varsin helppo ja nopea pystyttää (minä voin esim. tehdä sellaisen)
> - Myös kielitaidottomat pystyisivät osallistumaan, koska lähes jokainen
> osaa kertoa sanan perusmuodon, joten kehittäjien määrä voisi kasvaa.
> - Kielitaitoisilla ei kuluisi aikaa puuttuvien sanojen metsästykseen,
> jos joku toinen etsisi ne valmiiksi.
> - Päällekkäisen työn vaara vähenisi, koska listoja päivitettäisiin
> reaaliajassa ja jokainen työstäisi vain varaamiaan sanoja.
> - Jos kaikki uudet sanat viedään tuota kautta, ohjelma voi toimia täysin
> itsenäisesti omassa kannassaan/tiedostossaan ja pysyä silti aina
> ajantasalla (koska sillehän riittää että se tietää perusmuodot sanoista).
> - Työ porrastuisi tämän lisävaiheen myötä ja siten työtä voisi tehdä
> projektin eteen entistä pienemmän ajan puutteissa ja entistä pienemmällä
> vaivalla -> ihmiset saattaisivat käyttää enemmän aikaa työskentelyyn.
>
> Huonoja puolia:
> - Mahdolliset häiriköt/taidottomat voisivat iskeä järjestelmään ja
> lisäillä epävalideja sanoja. (tallennuksen yhteydessä ehkä aihetta
> tallettaa jokin tieto myös lisääjästä ja lisäysajankohdasta, jotta
> tälläiset voi helposti poistaa).
> - Nyt en taas tiedä näistä lakiasioista. Eli pitäisikö tuo
> sisäänkirjautuminen vaatia joka tapauksessa, että käyttäjiltä voi
> paremmin vaatia copyrightien kunnioittamista ja samalla täsmentää
> ohjeita sen suhteen minkälaisia sanoja sopii lisäillä. Tällöinhän
> samalla mahdollinen häirikköongelma poistuisi todennäköisesti kokonaan.
> Sisäänkirjautumisen kanssakin uusia käyttäjiä saattaisi löytyä, koska
> moni saattaa epäröidä projektiin liittymistä kielitaidottomuuteensa
> vedoten (itse ainakin epäröin pitkään juuri siksi).
>
> Päätettäviä asioita:
> - Pystytetäänkö ollenkaan vai ei.
> - Sisäänkirjautuminen vai ei.
> - Tietokanta vai tiedosto (tietokanta tietty parempi, jos palvelin
> sellaista tukee).
>
>
> Kommentteja?
Jotain tällaista tosiaan olisi hyvä tehdä, ja Jori on miettinyt samanlaista
järjestelyä. Mielestäni paras paikka tällaiselle olisikin Jorin tekemän
www-liittymän yhteydessä. Jorin liittymää ei voida siirtää hunspell-fi.org
-palvelimelle, koska meillä ei ole oikeuksia käyttää itse Hunspelliä siellä.
Mutta Reijon suunnittelema tietokanta voisi tarvittaessa sijaita siellä.
Tässä tosiaan tietokanna käyttäminen on järkevämpää kuin tavallisen
tekstitiedoston, koska sanoja jouduttaisiin sekä lisäämään että poistamaan
(ja merkitsemään jonkun varaamiksi) reaaliajassa. Tuosta tekijänoikeusasiasta
olisi tosiaan hyvä olla jonkinlainen selvä ja tiukasti muotoiltu maininta,
mutta lisäksi voisi olla järkevää, että liittymän kautta voisi syöttää vain
yhden sanan kerrallaan mikä vaikeuttaisi väärinkäyttöä. Sisäänkirjautumisen
vaatiminen saattaisi kuitenkin jo mennä liiallisuuksiin, koska tuonne
kuitenkin kerättäisiin vain perusmuodossa olevia sanoja. Olisiko mahdollista
tehdä vaikka niin, että ohjelma rajoittaisi yhdestä IP-osoitteesta
syötettävien sanojen määrän muutamaan kymmeneen päivässä, ja aktiivisempien
käyttäjien kanssa sovittaisiin sitten erikseen tavasta, jolla tuon
rajoituksen voisi kiertää?
Kuitenkin olen sitä mieltä, että tällaista liittymää ei kannata ottaa käyttöön
ennen kuin olemme käyneet läpi Ispell-sanaston, jossa edelleen on tuhansia
lisäämättömiä sanoja. Tuo sanastohan on julkaistu GPL-lisenssillä, joten sitä
voimme käyttää aivan ongelmitta. Ja myöskin sitä ennen meidän pitää edetä
noiden verbien kanssa, koska muuten me hukkuisimme siihen verbitulvaan, joka
tuon liittymän kautta tulisi. Minulla on tarkoitus aloittaa verbien
luokittelu jo marraskuussa, ja jos viitsin käyttää siihen osan
joululomastani, niin ehkäpä tammi-helmikuussa voisi sitten ottaa tällaisen
liittymän käyttöön.
Idea Reijolle: voisiko sitä sinun tekemääsi taivutusluokkien "arvausskriptiä"
muokata niin, että sen läpi voisi ajaa tuon Ispell-sanaston ja skripti
luokittelisi sanat valmiiksi todennäköisimpiin taivutusluokkiin ja
tallentaisi tuloksen tiedostoon? Siitä olisi sitten suhteellisen helppoa
käydä läpi sanoja luokka kerrallaan ja tarkistaa, että ne tosiaan menivät
oikeisiin luokkiin. Tätä voisi käyttää myös myöhemmin tuon www-liittymän
kautta saatujen sanojen esikäsittelyyn.
Harri
More information about the devel
mailing list