[voikko-devel] Hattu-s vai sh?

Harri Pitkänen hatapitk at cc.jyu.fi
Mon Nov 20 16:48:05 EET 2006


On Monday 20 November 2006 13:22, Teemu Likonen wrote:
> Tutkin tavutusta tilanteissa, joissa "š" on korvattu sh:lla. Joissakin
> tilanteissa menee ikävästi, kun sh:ta ei ilmeisesti oikein voi
> käsitellä yhtä äänteenä.
>
> bol-še-vis-mi ~ bols-he-vis-mi
> Men-ši-kov ~ Mens-hi-kov
>
> Tämän voi kai kikkailla toimimaan laittamalla kirjoitusasuun =-merkki
> sopivaan kohtaan.
>
> Alan kuitenkin itse kallistua siihen suuntaan, että näissä ulkomaisissa
> erisnimissä pitäydytään vain š:llisessä kirjoitusasussa. Joissakin
> suomen kieleen jo mukautuneissa sanoissa pitäisi sallia sekä "s"
> että "š" mutta ei "sh":ta (siis "bolsevismi" ja "bolševismi"). Olisin
> siis jättämässä sh- ja zh-versiot periaatteessa kokonaan pois, lukuun
> ottamatta joitakin todella vakiintuneita tilanteita, kuten "shakki ~
> šakki" (mutta ei "sakki", se on eri sana).
>
> Aiemmin kannatin sh:n zh:n sallimista kaikissa tilanteissa š:n ja ž:n
> vaihtoehtona, koska niitä joudutaan merkistön rajoitusten vuoksi joskus
> käyttämään. Nyt mm. tämä tavutusongelma sai arvioimaan tilanteen
> uudestaan. Mitä olette mieltä?

Olen aika vahvasti sitä mieltä, että sh- ja zh-versiot tulee säilyttää. On 
edelleen tilanteita (merkistöjä), joissa merkkejä š tai ž ei voi käyttää, ja 
toisaalta pelkkä s tai z ei kuulosta tai näytä hyvältä kaikissa sanoissa. 
Tämä tietysti muuttuu ajan kanssa kun nämä sanat juurtuvat suomen kieleen.

Tässä on ennemminkin kyse siitä, että libvoikossa ei ole varsinaista tukea 
tavutuspoikkeusten esittämiselle. Tavutuksen kieltämiselle tuki jo melkein 
onkin (ks. TODO-kommentti tiedoston libvoikko/src/voikko_hyphenate.c), mutta 
se toimii vain kokonaisille sanoille tai sanan osille, ja on toistaiseksi 
ollut käytössä vain lyhenteissä. Tuon TODO:n voin korjatakin seuraavaan 
versioon, ja lisätä Joukahaisen kirjoitusasusyntaksiin tavutuksen kieltävän 
merkin. Mikäköhän muuten olisi tähän sopiva symboli? Plusmerkki +, alaviiva 
_, hattu ^ vai jokin muu?

Sitten pitäisi vielä kehittää menetelmä tavutusvihjeiden lisäämiseen. Tämä 
vaatii jo vähän enemmän suunnittelua, koska on eri asia käsitelläänkö nämä 
vihjeet ennen sääntöpohjaisen tavutuksen suorittamista vai sen jälkeen. 
Nykyään kirjoitusasuissa käytetty yhtäsuuruusmerkkihän tulkitaan tavutuksessa 
yhdyssanarajaksi, mikä yleensä onkin oikein ja tuottaa toivotun tuloksen, 
mutta ei välttämättä johda optimaaliseen tavutukseen niissä tilanteissa 
joissa sitä käytettäisiin tavallisen tavurajan paikalla.


Huomaa muuten, että tämä tavutusongelma ei koske lainkaan zh-merkkiä eikä 
tsh-yhdistelmää:
$ echo Azerbaidzhan | voikkohyphenate
A-zer-baid-zhan
$ echo tshetshenialainen | voikkohyphenate
tshe-tshe-ni-a-lai-nen
$ echo tšetšenialainen | voikkohyphenate
tše-tše-ni-a-lai-nen


Tämä johtuu siitä, että libvoikon tavutusalgoritmi käsittelee "zh"-yhdistelmän 
yhtenä merkkinä, ellei sen sisälle ole asetettu morfeemirajaa. Samaa 
menetelmää ei valitettavasti voi soveltaa "sh"-yhdistelmään 
(mutta "tsh"-yhdistelmään voi), koska sitä jonkin verran esiintyy 
suomalaisissa sanoissa joissa se ei vastaa ž-äännettä ja vaatii tavuviivan 
väliinsä:
$ echo pasha | voikkohyphenate
pas-ha

Harri



More information about the devel mailing list