[voikko-devel] Joukahaisesta puuttuvat sanat / sanojen ja taivutusten yleisyys
Harri Pitkänen
hatapitk at cc.jyu.fi
Fri Mar 30 19:13:03 EEST 2007
On Friday 30 March 2007 12:29, Teemu Likonen wrote:
> Teemu Likonen kirjoitti:
> > Ajattelin ensin kuitenkin käydä nykyisen sanaston läpi ja lisätä
> > yhdyssanojen kirjoitusasuun merkin sanojen rajakohtaan. Muutoksesta
> > ei kai tällä hetkellä ole hyötyä muuten kuin siinä tapauksessa, että
> > haluaa tavutuksessa sanan minimipituutta laskettaessa huomioida
> > yhdyssanan osana olevat sanat. Mahdollisesti myöhemmin se voi auttaa
> > tavutuskohdan prioriteetin laskennassa, mikäli sellainen ominaisuus
> > on joskus mukana.
>
> Jos katkaisukohtien prioriteetteja joskus lasketaan, tästä tuleekin
> hankalampi kysymys. Tällä hetkellä yhtäsuuruusmerkki kirjoitusasuissa
> ei tarkoita tavutuksen prioriteetin kannalta aina samaa asiaa.
> Sanaan "Saari=järvi" kannattaa tietysti laittaa merkki sanojen välille,
> jotta ohjelma osaa kohdan tarvittaessa tunnistaa ja antaa sille
> esimerkiksi korkeimman prioriteetin. Sanassa "ap=probatur"
> yhtäsuuruusmerkki ei tarkoita parasta tavutuskohtaa vaan oikeaa
> tavutuskohtaa siinä tapauksessa, jos sana täytyy katkaista ensimmäisen
> tavun jälkeen. Muutoin se on oikeastaan huonoin katkaisukohta.
Pelkät tavutusvihjeet pitääkin tulevaisuudessa merkitä eri tavalla,
luultavasti tyyliin "[ap+pro]batur". Asiahan on jo ollut pitkään
suunnitteilla (http://joukahainen.lokalisointi.org/docs/kirjoitusasut.html),
mutta en ole saanut vielä aikaiseksi tehdä sille mitään. Tuolla kuitenkin on
alustavasti määritelty, että "Voikossa sanan tavutuksessa vahva morfeemiraja
käsitellään kuten yhdyssanan sanaraja", eli yhtäsuuruusmerkki tulisi tulkita
tavutuksen kannalta parhaana mahdollisena jakokohtana.
Jos halutaan olla oikein tarkkoja, niin pelkän tavutusvihjeen sijaan pitäisi
olla mahdollista merkitä se jakokohdan prioriteetti sanan kirjoitusasuun,
koska sitä ei näissä hankalissa tapauksissa voi mistään automaattisesti
päätellä. Tällöin voisi kirjoitusasu olla "[ap+3pro+2ba+2tu]r", jos
prioriteetit ovat
1 = hyvä jakokohta (esim. yhdyssanan raja)
2 = normaali jakokohta (esim. CV-parin edestä)
3 = huono, mutta mahdollinen jakokohta
Nykyisessä luonnoksessa kysymysmerkki vastaa tuota +3 -merkintää, mutta
jotenkin minusta tuntuu, että suunniteltu kaksitasoinen tavurajojen
luokittelu ei ole ihan riittävä kaikkiin tilanteisiin. Vai miten on?
Mutta yhdyssanoihin tuo yhtäsuuruusmerkki kannattaa tosiaan aina laittaa
kirjoitusasuun, ja se saisi olla sääntönä jatkossa uusille sanoille. Myös
pystyviivaa voi käyttää dokumentoidulla tavalla, se kyllä toimii. Plussat,
kysymysmerkit ja hakasulut eivät ole käytössä.
Harri
More information about the devel
mailing list