[voikko-devel] Tavutusvihjeet

Harri Pitkänen hatapitk at cc.jyu.fi
Mon Nov 20 19:25:06 EET 2006


On Monday 20 November 2006 18:29, Teemu Likonen wrote:
> Kaiken kaikkiaan minusta paras ratkaisu tuntuisi olevan sanaston
> kehittäjien kannalta - ohjelmoinnista en tiedä mitään -, että
> oletuksena sanat tavutetaan suomen kielen sääntöjen mukaan ja
> =-merkillä voidaan laittaa sanaraja yhdyssanoihin tai sen kaltaisiin
> sanoihin. Lisäksi olisi sitten tavutuksen kielto, mikä tarkoittaisi,
> ettei sanaa tavuteta millään algoritmilla vaan ainoastaan erikseen
> merkityistä kohdista, jos sellaisia on. Esimerkiksi ^-merkki
> kirjoitusasun alussa kieltäisi tavutuksen, mutta sallisi sen niistä
> kohdista, joihin on laitettu +-merkki:
>
> kirjoitusasu      tavutus
>
> nimenomaan        ni-men-o-maan
> ^nimenomaan       nimenomaan
> ^nimen+omaan      nimen-omaan
> ^ni+menomaa+n     ni-menomaa-n   :-)

Tuopa vaan ei toimi taipuvilla sanoilla, joita suomen kielessä valitettavasti 
on melko paljon... Perusmuodossa olevan sanan loppu ei useinkaan ole mukana 
saman sanan taivutusmuodoissa, joten jos sanaan asetetaan kaikki tavurajat 
valmiiksi, sanan lopussa olevat rajat menevät taivutetuissa muodoissa 
suurella todennäköisyydellä vääriin paikkoihin. Automaattitavutusta tarvitaan 
siis aina apuna, siitä ei pääse mihinkään.

Muutoinhan tuo esittämäsi formaatti onkin ihan käyttökelpoinen. Sitä pitää 
vain vähän jalostaa niin, että se pelaa yhteen automaattisen tavutuksen 
kanssa. Yksinkertaisin ja selvin tapa voisi olla se, että ensin sana 
tavutetaan automaattisesti kuten tähänkin asti (=-merkit huomioiden) ja 
tuloksena saadusta tavutuksesta vaihdetaan merkin ^ ja viimeisen +-merkin 
määräämältä väliltä kaikki tavutuskohdat annetun kirjoitusasun mukaisiksi. 
Tällöin jää kirjoitusasun lisääjän vastuulle lopettaa tavurajojen asettaminen 
riittävän aikaisin ennen sanan vartalon loppua, jottei taivutuspäätteen 
tavutus häiriinny.

Lisäksi täytyy huomioida merkkien = ja | vaikutus, tai ainakin päättää, että 
merkillä | ei ole mitään vaikutusta tavutukseen. Ja jotenkin on huomioitava 
myös se, että libvoikon käyttäjä on voinut valita tavutustyylin, jossa 
yksittäisiä merkkejä ei eroteta sanan alusta, lopusta tai yhdyssanan rajalta. 
Tai sitten käyttäjä haluaa tavurajat näihinkin kohtiin. Pitäisi siis myös 
välttää koodaamasta käsin tavurajoja tällaisille alueille, jos käsiteltävänä 
oleva sana alkaa tai päättyy vokaaliin. Eli tämä on valitettavasti 
mutkikkaampaa kuin toivoisi.

Meiltä puuttuukin ohjesivuilta vielä ohjeet kirjoitusasujen käytöstä. Yritän 
kirjoittaa sellaiset tässä jossain vaiheessa, ja laitan mukaan myös 
luonnoksen näiden tavutusvihjeiden käytöstä. Tietysti otan mielelläni vastaan 
lisää ideoita tämän informaation koodaamiseksi.

Harri



More information about the devel mailing list