[voikko-devel] Tavutusvihjeet
Harri Pitkänen
hatapitk at cc.jyu.fi
Mon Nov 20 19:25:06 EET 2006
On Monday 20 November 2006 18:29, Teemu Likonen wrote:
> Kaiken kaikkiaan minusta paras ratkaisu tuntuisi olevan sanaston
> kehittäjien kannalta - ohjelmoinnista en tiedä mitään -, että
> oletuksena sanat tavutetaan suomen kielen sääntöjen mukaan ja
> =-merkillä voidaan laittaa sanaraja yhdyssanoihin tai sen kaltaisiin
> sanoihin. Lisäksi olisi sitten tavutuksen kielto, mikä tarkoittaisi,
> ettei sanaa tavuteta millään algoritmilla vaan ainoastaan erikseen
> merkityistä kohdista, jos sellaisia on. Esimerkiksi ^-merkki
> kirjoitusasun alussa kieltäisi tavutuksen, mutta sallisi sen niistä
> kohdista, joihin on laitettu +-merkki:
>
> kirjoitusasu tavutus
>
> nimenomaan ni-men-o-maan
> ^nimenomaan nimenomaan
> ^nimen+omaan nimen-omaan
> ^ni+menomaa+n ni-menomaa-n :-)
Tuopa vaan ei toimi taipuvilla sanoilla, joita suomen kielessä valitettavasti
on melko paljon... Perusmuodossa olevan sanan loppu ei useinkaan ole mukana
saman sanan taivutusmuodoissa, joten jos sanaan asetetaan kaikki tavurajat
valmiiksi, sanan lopussa olevat rajat menevät taivutetuissa muodoissa
suurella todennäköisyydellä vääriin paikkoihin. Automaattitavutusta tarvitaan
siis aina apuna, siitä ei pääse mihinkään.
Muutoinhan tuo esittämäsi formaatti onkin ihan käyttökelpoinen. Sitä pitää
vain vähän jalostaa niin, että se pelaa yhteen automaattisen tavutuksen
kanssa. Yksinkertaisin ja selvin tapa voisi olla se, että ensin sana
tavutetaan automaattisesti kuten tähänkin asti (=-merkit huomioiden) ja
tuloksena saadusta tavutuksesta vaihdetaan merkin ^ ja viimeisen +-merkin
määräämältä väliltä kaikki tavutuskohdat annetun kirjoitusasun mukaisiksi.
Tällöin jää kirjoitusasun lisääjän vastuulle lopettaa tavurajojen asettaminen
riittävän aikaisin ennen sanan vartalon loppua, jottei taivutuspäätteen
tavutus häiriinny.
Lisäksi täytyy huomioida merkkien = ja | vaikutus, tai ainakin päättää, että
merkillä | ei ole mitään vaikutusta tavutukseen. Ja jotenkin on huomioitava
myös se, että libvoikon käyttäjä on voinut valita tavutustyylin, jossa
yksittäisiä merkkejä ei eroteta sanan alusta, lopusta tai yhdyssanan rajalta.
Tai sitten käyttäjä haluaa tavurajat näihinkin kohtiin. Pitäisi siis myös
välttää koodaamasta käsin tavurajoja tällaisille alueille, jos käsiteltävänä
oleva sana alkaa tai päättyy vokaaliin. Eli tämä on valitettavasti
mutkikkaampaa kuin toivoisi.
Meiltä puuttuukin ohjesivuilta vielä ohjeet kirjoitusasujen käytöstä. Yritän
kirjoittaa sellaiset tässä jossain vaiheessa, ja laitan mukaan myös
luonnoksen näiden tavutusvihjeiden käytöstä. Tietysti otan mielelläni vastaan
lisää ideoita tämän informaation koodaamiseksi.
Harri
More information about the devel
mailing list