[voikko-devel] Joukahaisesta puuttuvat sanat / sanojen ja taivutusten yleisyys
Teemu Likonen
tlikonen at iki.fi
Fri Mar 30 10:57:45 EEST 2007
Harri Pitkänen kirjoitti:
> Mitä tällä tiedolla sitten pitäisi tehdä? Sanoja on melko paljon,
> tällä hetkellä 11180 kappaletta (mikä on kuitenkin hiukan vähemmän
> kuin joulukuussa tekemäni yksinkertaisemman testauksen perusteella
> saatu luku, 12404 puuttuvaa sanaa). Osa sanoista on hyvinkin outoja,
> joten lähtisin etenemään asiassa niin, että poimitaan sieltä ensin
> silmämääräisesti tärkeimmät tapaukset, jotka olisi sanastossa hyvä
> olla mukana. Nämä lisätään Joukahaiseen, joko omina tietueinaan tai
> jonkin muun sanan kirjoitusasuna. Sanan lyhyt selitys kannattaa
> kirjata Joukahaiseen, jos lisättävä sana on suhteellisen harvinainen.
Minäkin lähtisin siitä, että silmämääräisperiaatteella valitaan
tärkeimmät. Aina voi käydä listan läpi uudelleen, jos tuntuu, että
sanoja tarvitaan lisää.
Ajattelin ensin kuitenkin käydä nykyisen sanaston läpi ja lisätä
yhdyssanojen kirjoitusasuun merkin sanojen rajakohtaan. Muutoksesta ei
kai tällä hetkellä ole hyötyä muuten kuin siinä tapauksessa, että
haluaa tavutuksessa sanan minimipituutta laskettaessa huomioida
yhdyssanan osana olevat sanat. Mahdollisesti myöhemmin se voi auttaa
tavutuskohdan prioriteetin laskennassa, mikäli sellainen ominaisuus on
joskus mukana.
Tiedoston joukahainen.lex alusta laskettuna noin kolmasosan olen
tarkistanutkin. Muihin kuin Joukahaisen kautta käsiteltäviin sanoihin
olen lisännyt rakenne-kentän jo aiemmin.
Ehdottaisin, että määritetään normiksi, että aina lisättäessä
Joukahaiseen uusia yhdyssanoja (sanatietueiksi tai kirjoitusasuiksi),
laitetaan kirjoitusasuun yhtäsuuruusmerkki sanojen rajalle,
esimerkiksi "Saari=järvi" tai "kitu=kasvuinen". Täytyy toki tietää,
mikä on johdin ja mikä sana. Esimerkiksi "koululainen" ei ole
yhdyssana, joten =-merkkiä ei kirjoitusasuun pidä laittaa.
Joissakin vieraskielisissä tai -peräisissä sanoissa kysymys yhdyssanasta
tai etuliitteestä on aika häilyvä suomen kielen näkökulmasta. Selviin
tapauksiin on joskus suorastaan pakko laittaa =-merkki, jotta tavutus
toimisi siten, että valtaosa ihmisistä kokee sen olevan oikein. Yleensä
on turvallisempi jättää ne sääntöpohjaisen tavutuksen varaan.
Suomen kielen normit mahdollistavat esimerkiksi
tavutuskohdat "sub-stantiivi" ja "subs-tantiivi", ja molempia myös
näkyy painetuissa teoksissa. Tällä hetkellä Voikko tavuttaa
kohdasta "subs-tantiivi" eli normaalien tavutussääntöjen mukaan.
Kuitenkin sana "subtrooppinen" tavutetaan etuliitteen jälkeen,
koska "trooppinen" selvästi myös itsenäinen sana.
Vieraskielisissä ja -peräisissä sanoissa tarvitaan siis aimo annos
harkintaa, mutta toivoisin, että ainakin selvästi suomen kielen
yhdyssanoihin lisättäisiin aina kirjoitusasuun =-merkki sanojen
rajalle.
Sitten sanojen ja taivutusten yleisyydestä:
> - Mallinnetaan samaan tapaan sanojen taivutusmuotojen
> esiintymistiheyttä, tai etsitään jostain tähän valmista
> tutkimustietoa.
Jos korjausehdotuksissa asetetaan toisille asioille korkeampi
prioriteetti kuin toisille, niin minusta kannattaisi ensin laittaa
sijamuodot ja verbin taivutukset järjestykseen ja vasta sitten sanojen
ja johdosten keskinäiset suhteet. Esimerkiksi komitatiivi on
harvinainen sija kaikissa sanoissa, joten sijamuotojen priorisointi
tuntuisi tehokkaalle. Vastaavasti verbeissä esimerkiksi indikatiivi
menisi potentiaalin edelle. Adverbeissa on kiteytyneitä taivutusmuotoja
ja liitteitä, joten niihin ei minusta kannata soveltaa samaa
priorisointia ("antee|ksi", "eittä|mä|ttä", "ainoa|sta|an").
Sijamuotojen yleisyystaulukoihin olen törmännyt ja muistaakseni Iso
suomen kieliopissakin oli jotain. En ehdy nyt etsiä tarkemmin.
More information about the devel
mailing list