[hunspell-fi-devel] Oikoluvussa käytetty merkistö
Teemu Likonen
teemu at silverentertainment.fi
Fri Feb 24 09:50:24 EET 2006
Esitän tässä nyt pari merkistöön liittyvää huomiota suomen kielen
kannalta. En osaa ottaa kantaa, kuinka oikoluku ja sanaston käsittely
kannattaa teknisesti hoitaa tai mikä kuuluu oikolukuohjelman vastuulle
ja mikä oikolukua käyttävän ohjelman vastuulle.
Kirjainmerkkien puolesta riittää ainakin tällä hetkellä ISO-8859-15,
koska sillä voidaan kirjoittaa "Tšekki", "Fidži" sekä joitakin täällä
käytettyjä vieraskielisiä sanoja, kuten "voilà" tai "déjà vu". On toki
varmasti erilaisia näkemyksiä tällaisten sanojen mukaan ottamisesta
suomen kielen oikolukuun. Itse en ole ihan varma. Joka tapausessa
ainakin tällä hetkellä ISO-8859-15 riittää. Tulevaisuudesta en tiedä.
Niin kuin tiedämme, joissakin sanoissa käytetään heittomerkkiä
erottamaan tavuraja: "rei'ittää", "ko'oissa". Joissakin tilanteissa
sitä käytetään erottamaan morfeemiraja: "show'ssa" [šoussa],
"Piaget'lla" [pjašeella]. Heittomerkki on suomen kielessä
ensisijaisesti U+2019 (RIGHT SINGLE QUOTATION MARK), mutta myös U+0027
(APOSTROPHE) täytyy hyväksyä, koska oikea heittomerkki ei aina ole
käytössä. (Sen sijaan U+02BC:tä, MODIFIER LETTER APOSTROPHE, käytetään
käsittääkseni katkoäänteen, glottaaliklusiilin, merkkinä. Joka
tapauksessa ei varsinaisena heittomerkkinä.)
Yhdyssanoissa käytetään yhdysmerkkinä U+002D:tä (HYPHEN-MINUS), josta
todennäköisesti tulee ikuisesti se "standardiyhdysmerkki". Unicodessa
on myös U+2010 (HYPHEN) sekä U+2011 (NON-BREAKING HYPHEN), joiden
täytyy myös toimia, koska käyttäjä voi niitä haluta käyttää. Voi
esimerkiksi olla, että U+002D:stä muodostuu fonteissa sellainen
yleiskäyttöinen "viivavälimerkki", mutta U+2010:aa tarvitaan, kun
tarvitaan typografisesti oikeanlainen yhdysmerkki. Tämä on vain
spekulointia; tällä hetkellä ne taitavat tuottaa useimmissa fonteissa
ihan samanlaisen glyyfin. Uskon että tulevaisuudessakin U+002D
suunnitellaan toimimaan typografisesti hyvänä yhdysmerkkinä kyseessä
olevan fontin kanssa. Molempien pitäisi kuitenkin kelvata oikoluvulle.
En sitten tiedä, mitä pitäisi tässä yhteydessä ajatella U+00AD:stä (SOFT
HYPHEN), joka on kai varattu automaattisten tavutusohjelmien käyttöön.
Jos oikein olen ymmärtänyt, sen tarkoitus on toimia väliaikaisena
yhdysmerkkinä, jonka esim. tekstinkäsittelyohjelma voi poistaa, kun
tarvetta tavutukseen ei enää ole tai käyttäjä kytkee
automaattitavutuksen pois.
Oikoluku ei saisi tökätä myöskään ligatuureihin, koska typograafikot
niitä tarvitsevat. En tiedä, mihin ohjelmapalikkaan niitä käsittelevä
logiikka pitäisi laittaa, mutta yksi ajatus on, että jos esim.
filosofia-sanassa joku on käyttänyt vain sanan alussa fi-ligatuuria,
niin oikoluku voisi ehdottaa sitä käytettäväksi myös lopussa. Ehkä tämä
menee jo saivartelun puolelle.
Ligatuurit voivat tuottaa myös tavutusongelmia, koska esim.
konflikti-sanassa tavuraja on fl-ligatuurin sisällä. (Latinan
kielessähän tavu- ja morfeemiraja on eri kohdassa: con 'yhdessä,
myötä', fligere 'iskeä vastaan'.)
Joo, tässä nyt vain irrallisia huomioita oikoluvun ja suomen kielen
kannalta. Ei siis minään kannanottona tai varsinkaan välittömänä
toteutusvaatimuksena nyt kehitteillä oleviin oikolukuohjelmiin.
- TL
More information about the devel
mailing list