[voikko-devel] Joukahaisesta puuttuvat sanat / sanojen ja taivutusten yleisyys

Harri Pitkänen hatapitk at cc.jyu.fi
Fri Mar 30 19:13:03 EEST 2007


On Friday 30 March 2007 12:29, Teemu Likonen wrote:
> Teemu Likonen kirjoitti:
> > Ajattelin ensin kuitenkin käydä nykyisen sanaston läpi ja lisätä
> > yhdyssanojen kirjoitusasuun merkin sanojen rajakohtaan. Muutoksesta
> > ei kai tällä hetkellä ole hyötyä muuten kuin siinä tapauksessa, että
> > haluaa tavutuksessa sanan minimipituutta laskettaessa huomioida
> > yhdyssanan osana olevat sanat. Mahdollisesti myöhemmin se voi auttaa
> > tavutuskohdan prioriteetin laskennassa, mikäli sellainen ominaisuus
> > on joskus mukana.
>
> Jos katkaisukohtien prioriteetteja joskus lasketaan, tästä tuleekin
> hankalampi kysymys. Tällä hetkellä yhtäsuuruusmerkki kirjoitusasuissa
> ei tarkoita tavutuksen prioriteetin kannalta aina samaa asiaa.
> Sanaan "Saari=järvi" kannattaa tietysti laittaa merkki sanojen välille,
> jotta ohjelma osaa kohdan tarvittaessa tunnistaa ja antaa sille
> esimerkiksi korkeimman prioriteetin. Sanassa "ap=probatur"
> yhtäsuuruusmerkki ei tarkoita parasta tavutuskohtaa vaan oikeaa
> tavutuskohtaa siinä tapauksessa, jos sana täytyy katkaista ensimmäisen
> tavun jälkeen. Muutoin se on oikeastaan huonoin katkaisukohta.

Pelkät tavutusvihjeet pitääkin tulevaisuudessa merkitä eri tavalla, 
luultavasti tyyliin "[ap+pro]batur". Asiahan on jo ollut pitkään 
suunnitteilla (http://joukahainen.lokalisointi.org/docs/kirjoitusasut.html), 
mutta en ole saanut vielä aikaiseksi tehdä sille mitään. Tuolla kuitenkin on 
alustavasti määritelty, että "Voikossa sanan tavutuksessa vahva morfeemiraja 
käsitellään kuten yhdyssanan sanaraja", eli yhtäsuuruusmerkki tulisi tulkita 
tavutuksen kannalta parhaana mahdollisena jakokohtana.

Jos halutaan olla oikein tarkkoja, niin pelkän tavutusvihjeen sijaan pitäisi 
olla mahdollista merkitä se jakokohdan prioriteetti sanan kirjoitusasuun, 
koska sitä ei näissä hankalissa tapauksissa voi mistään automaattisesti 
päätellä. Tällöin voisi kirjoitusasu olla "[ap+3pro+2ba+2tu]r", jos 
prioriteetit ovat
1 = hyvä jakokohta (esim. yhdyssanan raja)
2 = normaali jakokohta (esim. CV-parin edestä)
3 = huono, mutta mahdollinen jakokohta
Nykyisessä luonnoksessa kysymysmerkki vastaa tuota +3 -merkintää, mutta 
jotenkin minusta tuntuu, että suunniteltu kaksitasoinen tavurajojen 
luokittelu ei ole ihan riittävä kaikkiin tilanteisiin. Vai miten on?

Mutta yhdyssanoihin tuo yhtäsuuruusmerkki kannattaa tosiaan aina laittaa 
kirjoitusasuun, ja se saisi olla sääntönä jatkossa uusille sanoille. Myös 
pystyviivaa voi käyttää dokumentoidulla tavalla, se kyllä toimii. Plussat, 
kysymysmerkit ja hakasulut eivät ole käytössä.

HarriMore information about the devel mailing list