[hunspell-fi-devel] Suomen kielen sallitut merkit ja CLDR
Harri Pitkänen
hatapitk at cc.jyu.fi
Sat Apr 15 11:57:34 EEST 2006
On Friday 14 April 2006 21:55, Elias Aarnio wrote:
> Hei,
>
> Sain viimeinkin vastauksen kotoistamishanketta vetävältä Erkki
> Kolehmaiselta vastauksen kysymykseeni siitä, mitkä merkit ovat
> sallittuja suomenkielisessä tekstissä.
>
> Kysymyshän esitettiin oikoluvun kannalta: mitä muita merkkejä sallitaan
> kuin kirjaimet.
>
> Valitettavasti vastaus ei ole kovinkaan täydellinen kannaltamme.
No eipä tosiaan ole. Lista sisältää vain kirjaimia (jotka ovat oikoluvun
kannalta siinä mielessä yksinkertaisia, että ne hyväksytään vain sen
perusteella löytyykö sana sanastosta, joten niiden luetteleminen ilman
suomenkielisiä esimerkkisanoja ei hirveästi auta) ja sanojen ulkopuolisia
merkkejä (lainausmerkit ja nuo luetellut erotinmerkit eivät ole sanan osia
ollenkaan).
> Esim.
> Teemun esittämä problematiikka kaksoispisteestä ei ratkea, koska
> kaksoispistettä ei ole määritelty vielä CLDR:ään. Se tulee mukaan vasta
> seuraavaan versioon.
Ja tämä olisi ollut juuri se asia, joka meidän olisi pitänyt saada selville.
En sitä paitsi edes tiedä, onko CLDR se paikka josta tällaista informaatiota
voi edes saada (vaikka ehkä sen pitäisi olla?) Nähdäkseni CLDR:n tiedot
tallennetaan Unicode Technical Standard #35:n mukaiseen formaattiin
(http://www.unicode.org/reports/tr35/) kun taas säännöstö tekstin jakamiselle
sanoihin määritellään Unicode Standard Annex #29:ssä
(http://www.unicode.org/reports/tr29/) esitetyssä formaatissa. Tästä
jälkimmäisestä olisi nyt tutkittava kappaletta 4 (Word Boundaries). Siellä on
jo mainittukin, että kaksoispiste kuuluisi sanan keskellä hyväksyttäviin
merkkeihin, koska sitä tarvitaan ruotsin kielessä. Lisäksi kappaleen lopussa
on hiukan käsitelty tätä yhdysviivaongelmaa.
> Lisäksi muutama yksityiskohta sähköpostien ja puhelinkeskustelujen
> pohjalta:
>
> SHY (soft hyphen) käytetään yleisimmin silloin, kun varsinaista
> tavutusta ei käytetä/sallita, kertomaan mahdollinen katkoskohta
> rivinvaihtoa varten. Sitä ei saa riisua pois vuosta vaan se siirretään
> eteenpäin jos tietoa siirretään järjestelmästä toiseen tai vain eteenpäin.
Oikoluvussa varmaan kannattaa jättää tuo merkki huomioimatta. Ainakin
OpenOffice poistaa sen ennen kuin antaa sanan oikolukukomponentin
käsiteltäväksi.
Tietysti voisi olla mielenkiintoista pohtia, mitä tehdään jos tavutettava sana
sisältää tavutusvihjeen. Tällöinhän olisi mahdollista teoriassa rakentaa
ohjailtava tavutusohjelma. Siis siten, että jos sanaa ei voi luotettavasti
tavuttaa automaattisesti (esim. "kaivosaukko") käyttäjä voisi lisätä
tavutusvihjeen oikeaan paikkaan ("kaivos-aukko" tai "kaivo-saukko") ja
tavutusohjelma hoitaisi loput tavurajat kohdalleen. Käytännössä esimerkiksi
OpenOffice ei anna tavutusvihjeitä sisältäviä sanoja ollenkaan
tavutusohjelman käsiteltäväksi, vaan olettaa että sanaa ei voi tavuttaa
mistään muualta kuin sieltä mihin tavutusvihje on asetettu. Tämä on tietysti
järkevääkin, vaikkei täysin ongelmatonta.
> Ajanilmaisuissa käytetään erottimena pistettä (eikä siis
> kaksoispistettä), koska tähän on päädytty myös juuri julkaistussa SFS
> 4175 -standardissa.
Tämä ei varmaan vaikuta oikolukuun tai tavutukseen, sillä emme varmaan halua
edes yrittää tehdä oikolukuohjelmaa joka oikolukisi numeerisia ajan
ilmauksia.
> Vaan mitenkäs tästä eteenpäin?
Asiaa käsittelevään OpenOfficen bugiin 58513 tuli juuri kommentti Karl
Hongilta, jonka vastuualuetta nämä asiat ovat. Hän haluaisi lisäselvitystä
asiaan, joten ehdotan että "standardoimme" tämän asian nyt itse yhdysviivan
ja kaksoispisteen osalta, ja palaamme mahdollisiin muihin ongelmamerkkeihin
myöhemmin. Nopein tapa kehittää tämä standardi on matkia MS Wordin toimintaa.
Tätä varten tein testilomakkeen
(http://www.hunspell-fi.org/ooo/tests/breakiterator.html). Pyytäisin, että ne
joilla on Word käytettävissä (suomen kielen tuki on välttämätön) tekisivät
nuo lomakkeessa olevat testit ja raportoisivat tuloksista. Mainitkaa myös
käyttämänne Wordin versio. Otan myös vastaan muilla
tekstinkäsittelyohjelmilla tehtyjä testejä, aina parempi mitä useamman
olemassa olevan ohjelman toiminta on testattu. Lomakkeessa on jo esimerkin
vuoksi OpenOfficella saadut tulokset.
Kun testit on tehty, laitan täydennetyn lomakkeen IssueZillaan. Tietysti jos
Word toimii tässä täysin järjettömällä tavalla, ei meidän tarvitse
välttämättä sen toimintaa kopioida, mutta käytännössä luulen että
Microsoftilla tätä asiaa on mietitty aika paljon. Varmistan myös, että Voikko
selviää kaikista niistä merkeistä jota päätämme hyväksyä sanaan kuuluviksi.
Itse asiassa se kyllä jo nyt ymmärtää kaksoispisteen ja yhdysviivan ihan
hyvin.
Harri
More information about the devel
mailing list