[hunspell-fi-devel] Etusivulla kaivataan "suomen kielen asiantuntijaa"

Harri Pitkänen hatapitk at cc.jyu.fi
Wed Nov 23 11:25:05 EET 2005


On Wednesday 23 November 2005 00:42, Tuomo Koistinen wrote:
> Minkä tason asiantuntemuksesta on pula? Olen nohevahko Debian-käyttäjä
> ja suomen kielen toisen vuoden pääaineopiskelija Helsingin yliopistossa.
> Asiantuntijuus on suhteellista, mutta ehkä minusta on apua. Missä
> asiassa tarkalleen nykyisillä kehittäjillä on pulmia?

Suurin yksittäinen ongelma on taivutusluokitusten kanssa. Suomen opiskelijana 
varmaan olet tutustunut Kotuksen / Kielitoimiston sanakirjoihin ja niissä 
käytettyyn luokitukseen. Siinähän verbien ja nominien taivutusluokkia on 
yhteensä lähes sata, eikä missään näytä olevan minkäänlaista selvitystä 
siitä, millä perusteella sanat mihinkin luokkaan tulevat. Meidän maallikkojen 
on siis hyvin hankala löytää sanalle oikeaa taivutusluokkaa, koska emme voi 
niitä jokaisen sanan kohdalla katsoa sanakirjasta. Osittain ajanpuutteen 
vuoksi ja osittain luokittelun helpottamiseksi käytämme tällä hetkellä 
luokitusta, jossa on mukana ainoastaa yleisimmät taivutusluokat, ja niitäkin 
on paikoitellen yhdistelty koska joidenkin luokkien väliset erot ovat niin 
pieniä, että asiaan perehtymättömien on hyvin vaikea valita niiden väliltä 
sitä oikeaa.
Siispä suurin tarve asiantuntijalle olisi tuon taivutusluokituksen 
arvioinnissa. Eli jos katsot sivulla http://www.hunspell-fi.org/koodit.php
olevaa taulukkoa ja löydät sieltä huomautettavaa (esimerkiksi tyyliin 
"eiväthän nämä kaikki sanat taivu samalla tavalla" tai "tähän luokkaan sopii
myös tuolla tavalla päättyviä sanoja" tai "tämän luokan sanoissa on aina 
oltava tietty määrä tavuja") ja muuta sellaista, joka meiltä muilta on ehkä 
jäänyt huomaamatta, niin voit lähettää korjausehdotuksia. Samoin voit 
yksinkertaisesti vain seurata postituslistan liikennettä ja huomautella 
sanalistoissa olevista virheellisistä luokituksista ja vastailla kysymyksiin. 
Sivun http://www.hunspell-fi.org/ohjeet.php lopussa on myös pari pohdittavaa 
kysymystä, joihin ehkä osaisit vastata tai tiedät, mistä noihin kysymyksiin 
kannattaisi ryhtyä etsimään vastausta. Tämän postituslistan arkistoakin 
kannattaa selailla, sieltä saa aika hyvän käsityksen siitä, mitä olemme 
tekemässä.

> Lisäsin äsken 20 sanaa tietokantaan tuon web-lomakkeen kautta ja tulin
> miettineeksi, että tallennatteko todella tietokantaan ihan kaikki sanat
> sellaisenaan, ja sitten niiden taivutusparadigmat ja mahdolliset
> liitteet? Nimittäin kun suomen kielessähän johtamalla saadaan vaikka
> kuinka pirusti uusia sanoja: vetää, vedättää, vedätyttää, vedätätyttää,
> vetäytyä, vedättäytyä jne. Osaako hunspell-fi tulkita johdoksia, vai
> pitääkö siihen vain kärsivällisesti lisätä kaikki mieleen juolahtavat?

Taivutettuja sanoja ei lisätä tietokantaan, ainoastaan perusmuodossa olevia 
sanoja. Lisäksi myöskään yhdyssanoja ei lisätä, koska niitäkin on 
periaatteessa olemassa äärettömän monta. Johdettujen sanojen kanssa (kuten 
esimerkiksi juuri vedättää, vedätyttää jne.) kanssa toimitaan sitten vähän 
tapauskohtaisesti. Pääsääntö on se, että jos jokin johdos voidaan tehdä 
useimmista tai kaikista tietyn sanaluokan sanoista, sitä ei lisätä sanastoon 
erikseen vaan kyseiset muodot tunnistetaan ohjelmallisesti.

Noista antaimistasi esimerkeistä sanoisin, että ainakin "vetää" ja "vetäytyä" 
pitää tuota periaatetta noudattamalla lisätä sellaisenaan sanastoon, muita 
ehkä ei. Tähän ei ole olemassa mitään yksiselitteistä sääntöä, oikeastaan 
olisi hyvä tutkia noita erilaisia johdoksia ja listata niitä jonnekin, ja 
sitten päättää mitkä niistä voidaan luoda automaattisesti ja mitä ei. 
Tässäkin on yksi asia, johon suomen kielen opiskelijasta olisi apua, 
vaikkakin tähän taitaisi löytyä apua jo ihan kielioppikirjoja tutkimallakin.

Jos haluat laajemmat käyttöoikeudet sanastonkeruusovellukseen, niin sekin 
kyllä järjestyy.

Tervetuloa mukaan!

Harri



More information about the devel mailing list