[voikko-devel] Joukahaisesta puuttuvat sanat / sanojen ja taivutusten yleisyys

Teemu Likonen tlikonen at iki.fi
Fri Mar 30 10:57:45 EEST 2007


Harri Pitkänen kirjoitti:

> Mitä tällä tiedolla sitten pitäisi tehdä? Sanoja on melko paljon,
> tällä hetkellä 11180 kappaletta (mikä on kuitenkin hiukan vähemmän
> kuin joulukuussa tekemäni yksinkertaisemman testauksen perusteella
> saatu luku, 12404 puuttuvaa sanaa). Osa sanoista on hyvinkin outoja,
> joten lähtisin etenemään asiassa niin, että poimitaan sieltä ensin
> silmämääräisesti tärkeimmät tapaukset, jotka olisi sanastossa hyvä
> olla mukana. Nämä lisätään Joukahaiseen, joko omina tietueinaan tai
> jonkin muun sanan kirjoitusasuna. Sanan lyhyt selitys kannattaa
> kirjata Joukahaiseen, jos lisättävä sana on suhteellisen harvinainen.

Minäkin lähtisin siitä, että silmämääräisperiaatteella valitaan 
tärkeimmät. Aina voi käydä listan läpi uudelleen, jos tuntuu, että 
sanoja tarvitaan lisää.

Ajattelin ensin kuitenkin käydä nykyisen sanaston läpi ja lisätä 
yhdyssanojen kirjoitusasuun merkin sanojen rajakohtaan. Muutoksesta ei 
kai tällä hetkellä ole hyötyä muuten kuin siinä tapauksessa, että 
haluaa tavutuksessa sanan minimipituutta laskettaessa huomioida 
yhdyssanan osana olevat sanat. Mahdollisesti myöhemmin se voi auttaa 
tavutuskohdan prioriteetin laskennassa, mikäli sellainen ominaisuus on 
joskus mukana.

Tiedoston joukahainen.lex alusta laskettuna noin kolmasosan olen 
tarkistanutkin. Muihin kuin Joukahaisen kautta käsiteltäviin sanoihin 
olen lisännyt rakenne-kentän jo aiemmin.

Ehdottaisin, että määritetään normiksi, että aina lisättäessä 
Joukahaiseen uusia yhdyssanoja (sanatietueiksi tai kirjoitusasuiksi), 
laitetaan kirjoitusasuun yhtäsuuruusmerkki sanojen rajalle, 
esimerkiksi "Saari=järvi" tai "kitu=kasvuinen". Täytyy toki tietää, 
mikä on johdin ja mikä sana. Esimerkiksi "koululainen" ei ole 
yhdyssana, joten =-merkkiä ei kirjoitusasuun pidä laittaa.

Joissakin vieraskielisissä tai -peräisissä sanoissa kysymys yhdyssanasta 
tai etuliitteestä on aika häilyvä suomen kielen näkökulmasta. Selviin 
tapauksiin on joskus suorastaan pakko laittaa =-merkki, jotta tavutus 
toimisi siten, että valtaosa ihmisistä kokee sen olevan oikein. Yleensä 
on turvallisempi jättää ne sääntöpohjaisen tavutuksen varaan.

Suomen kielen normit mahdollistavat esimerkiksi 
tavutuskohdat "sub-stantiivi" ja "subs-tantiivi", ja molempia myös 
näkyy painetuissa teoksissa. Tällä hetkellä Voikko tavuttaa 
kohdasta "subs-tantiivi" eli normaalien tavutussääntöjen mukaan. 
Kuitenkin sana "subtrooppinen" tavutetaan etuliitteen jälkeen, 
koska "trooppinen" selvästi myös itsenäinen sana.

Vieraskielisissä ja -peräisissä sanoissa tarvitaan siis aimo annos 
harkintaa, mutta toivoisin, että ainakin selvästi suomen kielen 
yhdyssanoihin lisättäisiin aina kirjoitusasuun =-merkki sanojen 
rajalle.

Sitten sanojen ja taivutusten yleisyydestä:

> - Mallinnetaan samaan tapaan sanojen taivutusmuotojen
> esiintymistiheyttä, tai etsitään jostain tähän valmista
> tutkimustietoa.

Jos korjausehdotuksissa asetetaan toisille asioille korkeampi 
prioriteetti kuin toisille, niin minusta kannattaisi ensin laittaa 
sijamuodot ja verbin taivutukset järjestykseen ja vasta sitten sanojen 
ja johdosten keskinäiset suhteet. Esimerkiksi komitatiivi on 
harvinainen sija kaikissa sanoissa, joten sijamuotojen priorisointi 
tuntuisi tehokkaalle. Vastaavasti verbeissä esimerkiksi indikatiivi 
menisi potentiaalin edelle. Adverbeissa on kiteytyneitä taivutusmuotoja 
ja liitteitä, joten niihin ei minusta kannata soveltaa samaa 
priorisointia ("antee|ksi", "eittä|mä|ttä", "ainoa|sta|an").

Sijamuotojen yleisyystaulukoihin olen törmännyt ja muistaakseni Iso 
suomen kieliopissakin oli jotain. En ehdy nyt etsiä tarkemmin.



More information about the devel mailing list