[hunspell-fi-devel] Oikoluvussa käytetty merkistö

Teemu Likonen teemu at silverentertainment.fi
Fri Feb 24 09:50:24 EET 2006


Esitän tässä nyt pari merkistöön liittyvää huomiota suomen kielen 
kannalta. En osaa ottaa kantaa, kuinka oikoluku ja sanaston käsittely 
kannattaa teknisesti hoitaa tai mikä kuuluu oikolukuohjelman vastuulle 
ja mikä oikolukua käyttävän ohjelman vastuulle.

Kirjainmerkkien puolesta riittää ainakin tällä hetkellä ISO-8859-15, 
koska sillä voidaan kirjoittaa "Tšekki", "Fidži" sekä joitakin täällä 
käytettyjä vieraskielisiä sanoja, kuten "voilà" tai "déjà vu". On toki 
varmasti erilaisia näkemyksiä tällaisten sanojen mukaan ottamisesta 
suomen kielen oikolukuun. Itse en ole ihan varma. Joka tapausessa 
ainakin tällä hetkellä ISO-8859-15 riittää. Tulevaisuudesta en tiedä.

Niin kuin tiedämme, joissakin sanoissa käytetään heittomerkkiä 
erottamaan tavuraja: "rei'ittää", "ko'oissa". Joissakin tilanteissa 
sitä käytetään erottamaan morfeemiraja: "show'ssa" [šoussa], 
"Piaget'lla" [pjašeella]. Heittomerkki on suomen kielessä 
ensisijaisesti U+2019 (RIGHT SINGLE QUOTATION MARK), mutta myös U+0027 
(APOSTROPHE) täytyy hyväksyä, koska oikea heittomerkki ei aina ole 
käytössä. (Sen sijaan U+02BC:tä, MODIFIER LETTER APOSTROPHE, käytetään 
käsittääkseni katkoäänteen, glottaaliklusiilin, merkkinä. Joka 
tapauksessa ei varsinaisena heittomerkkinä.)

Yhdyssanoissa käytetään yhdysmerkkinä U+002D:tä (HYPHEN-MINUS), josta 
todennäköisesti tulee ikuisesti se "standardiyhdysmerkki". Unicodessa 
on myös U+2010 (HYPHEN) sekä U+2011 (NON-BREAKING HYPHEN), joiden 
täytyy myös toimia, koska käyttäjä voi niitä haluta käyttää. Voi 
esimerkiksi olla, että U+002D:stä muodostuu fonteissa sellainen 
yleiskäyttöinen "viivavälimerkki", mutta U+2010:aa tarvitaan, kun 
tarvitaan typografisesti oikeanlainen yhdysmerkki. Tämä on vain 
spekulointia; tällä hetkellä ne taitavat tuottaa useimmissa fonteissa 
ihan samanlaisen glyyfin. Uskon että tulevaisuudessakin U+002D 
suunnitellaan toimimaan typografisesti hyvänä yhdysmerkkinä kyseessä 
olevan fontin kanssa. Molempien pitäisi kuitenkin kelvata oikoluvulle.

En sitten tiedä, mitä pitäisi tässä yhteydessä ajatella U+00AD:stä (SOFT 
HYPHEN), joka on kai varattu automaattisten tavutusohjelmien käyttöön. 
Jos oikein olen ymmärtänyt, sen tarkoitus on toimia väliaikaisena 
yhdysmerkkinä, jonka esim. tekstinkäsittelyohjelma voi poistaa, kun 
tarvetta tavutukseen ei enää ole tai käyttäjä kytkee 
automaattitavutuksen pois.

Oikoluku ei saisi tökätä myöskään ligatuureihin, koska typograafikot 
niitä tarvitsevat. En tiedä, mihin ohjelmapalikkaan niitä käsittelevä 
logiikka pitäisi laittaa, mutta yksi ajatus on, että jos esim. 
filosofia-sanassa joku on käyttänyt vain sanan alussa fi-ligatuuria, 
niin oikoluku voisi ehdottaa sitä käytettäväksi myös lopussa. Ehkä tämä 
menee jo saivartelun puolelle.

Ligatuurit voivat tuottaa myös tavutusongelmia, koska esim. 
konflikti-sanassa tavuraja on fl-ligatuurin sisällä. (Latinan 
kielessähän tavu- ja morfeemiraja on eri kohdassa: con 'yhdessä, 
myötä', fligere 'iskeä vastaan'.)

Joo, tässä nyt vain irrallisia huomioita oikoluvun ja suomen kielen 
kannalta. Ei siis minään kannanottona tai varsinkaan välittömänä 
toteutusvaatimuksena nyt kehitteillä oleviin oikolukuohjelmiin.

 - TL



More information about the devel mailing list