[hunspell-fi-devel] Etusivulla kaivataan "suomen kielen asiantuntijaa"
Harri Pitkänen
hatapitk at cc.jyu.fi
Wed Nov 23 11:25:05 EET 2005
On Wednesday 23 November 2005 00:42, Tuomo Koistinen wrote:
> Minkä tason asiantuntemuksesta on pula? Olen nohevahko Debian-käyttäjä
> ja suomen kielen toisen vuoden pääaineopiskelija Helsingin yliopistossa.
> Asiantuntijuus on suhteellista, mutta ehkä minusta on apua. Missä
> asiassa tarkalleen nykyisillä kehittäjillä on pulmia?
Suurin yksittäinen ongelma on taivutusluokitusten kanssa. Suomen opiskelijana
varmaan olet tutustunut Kotuksen / Kielitoimiston sanakirjoihin ja niissä
käytettyyn luokitukseen. Siinähän verbien ja nominien taivutusluokkia on
yhteensä lähes sata, eikä missään näytä olevan minkäänlaista selvitystä
siitä, millä perusteella sanat mihinkin luokkaan tulevat. Meidän maallikkojen
on siis hyvin hankala löytää sanalle oikeaa taivutusluokkaa, koska emme voi
niitä jokaisen sanan kohdalla katsoa sanakirjasta. Osittain ajanpuutteen
vuoksi ja osittain luokittelun helpottamiseksi käytämme tällä hetkellä
luokitusta, jossa on mukana ainoastaa yleisimmät taivutusluokat, ja niitäkin
on paikoitellen yhdistelty koska joidenkin luokkien väliset erot ovat niin
pieniä, että asiaan perehtymättömien on hyvin vaikea valita niiden väliltä
sitä oikeaa.
Siispä suurin tarve asiantuntijalle olisi tuon taivutusluokituksen
arvioinnissa. Eli jos katsot sivulla http://www.hunspell-fi.org/koodit.php
olevaa taulukkoa ja löydät sieltä huomautettavaa (esimerkiksi tyyliin
"eiväthän nämä kaikki sanat taivu samalla tavalla" tai "tähän luokkaan sopii
myös tuolla tavalla päättyviä sanoja" tai "tämän luokan sanoissa on aina
oltava tietty määrä tavuja") ja muuta sellaista, joka meiltä muilta on ehkä
jäänyt huomaamatta, niin voit lähettää korjausehdotuksia. Samoin voit
yksinkertaisesti vain seurata postituslistan liikennettä ja huomautella
sanalistoissa olevista virheellisistä luokituksista ja vastailla kysymyksiin.
Sivun http://www.hunspell-fi.org/ohjeet.php lopussa on myös pari pohdittavaa
kysymystä, joihin ehkä osaisit vastata tai tiedät, mistä noihin kysymyksiin
kannattaisi ryhtyä etsimään vastausta. Tämän postituslistan arkistoakin
kannattaa selailla, sieltä saa aika hyvän käsityksen siitä, mitä olemme
tekemässä.
> Lisäsin äsken 20 sanaa tietokantaan tuon web-lomakkeen kautta ja tulin
> miettineeksi, että tallennatteko todella tietokantaan ihan kaikki sanat
> sellaisenaan, ja sitten niiden taivutusparadigmat ja mahdolliset
> liitteet? Nimittäin kun suomen kielessähän johtamalla saadaan vaikka
> kuinka pirusti uusia sanoja: vetää, vedättää, vedätyttää, vedätätyttää,
> vetäytyä, vedättäytyä jne. Osaako hunspell-fi tulkita johdoksia, vai
> pitääkö siihen vain kärsivällisesti lisätä kaikki mieleen juolahtavat?
Taivutettuja sanoja ei lisätä tietokantaan, ainoastaan perusmuodossa olevia
sanoja. Lisäksi myöskään yhdyssanoja ei lisätä, koska niitäkin on
periaatteessa olemassa äärettömän monta. Johdettujen sanojen kanssa (kuten
esimerkiksi juuri vedättää, vedätyttää jne.) kanssa toimitaan sitten vähän
tapauskohtaisesti. Pääsääntö on se, että jos jokin johdos voidaan tehdä
useimmista tai kaikista tietyn sanaluokan sanoista, sitä ei lisätä sanastoon
erikseen vaan kyseiset muodot tunnistetaan ohjelmallisesti.
Noista antaimistasi esimerkeistä sanoisin, että ainakin "vetää" ja "vetäytyä"
pitää tuota periaatetta noudattamalla lisätä sellaisenaan sanastoon, muita
ehkä ei. Tähän ei ole olemassa mitään yksiselitteistä sääntöä, oikeastaan
olisi hyvä tutkia noita erilaisia johdoksia ja listata niitä jonnekin, ja
sitten päättää mitkä niistä voidaan luoda automaattisesti ja mitä ei.
Tässäkin on yksi asia, johon suomen kielen opiskelijasta olisi apua,
vaikkakin tähän taitaisi löytyä apua jo ihan kielioppikirjoja tutkimallakin.
Jos haluat laajemmat käyttöoikeudet sanastonkeruusovellukseen, niin sekin
kyllä järjestyy.
Tervetuloa mukaan!
Harri
More information about the devel
mailing list