[hunspell-fi-devel] Suomen kielen sallitut merkit ja CLDR

Harri Pitkänen hatapitk at cc.jyu.fi
Sat Apr 15 11:57:34 EEST 2006


On Friday 14 April 2006 21:55, Elias Aarnio wrote:
> Hei,
>
> Sain viimeinkin vastauksen kotoistamishanketta vetävältä Erkki
> Kolehmaiselta vastauksen kysymykseeni siitä, mitkä merkit ovat
> sallittuja suomenkielisessä tekstissä.
>
> Kysymyshän esitettiin oikoluvun kannalta: mitä muita merkkejä sallitaan
> kuin kirjaimet.
>
> Valitettavasti vastaus ei ole kovinkaan täydellinen kannaltamme.

No eipä tosiaan ole. Lista sisältää vain kirjaimia (jotka ovat oikoluvun 
kannalta siinä mielessä yksinkertaisia, että ne hyväksytään vain sen 
perusteella löytyykö sana sanastosta, joten niiden luetteleminen ilman 
suomenkielisiä esimerkkisanoja ei hirveästi auta) ja sanojen ulkopuolisia 
merkkejä (lainausmerkit ja nuo luetellut erotinmerkit eivät ole sanan osia 
ollenkaan).

> Esim. 
> Teemun esittämä problematiikka kaksoispisteestä ei ratkea, koska
> kaksoispistettä ei ole määritelty vielä CLDR:ään. Se tulee mukaan vasta
> seuraavaan versioon.

Ja tämä olisi ollut juuri se asia, joka meidän olisi pitänyt saada selville. 
En sitä paitsi edes tiedä, onko CLDR se paikka josta tällaista informaatiota 
voi edes saada (vaikka ehkä sen pitäisi olla?) Nähdäkseni CLDR:n tiedot 
tallennetaan Unicode Technical Standard #35:n mukaiseen formaattiin 
(http://www.unicode.org/reports/tr35/) kun taas säännöstö tekstin jakamiselle 
sanoihin määritellään Unicode Standard Annex #29:ssä 
(http://www.unicode.org/reports/tr29/) esitetyssä formaatissa. Tästä 
jälkimmäisestä olisi nyt tutkittava kappaletta 4 (Word Boundaries). Siellä on 
jo mainittukin, että kaksoispiste kuuluisi sanan keskellä hyväksyttäviin 
merkkeihin, koska sitä tarvitaan ruotsin kielessä. Lisäksi kappaleen lopussa 
on hiukan käsitelty tätä yhdysviivaongelmaa.

> Lisäksi muutama yksityiskohta sähköpostien ja puhelinkeskustelujen
> pohjalta:
>
> SHY (soft hyphen) käytetään yleisimmin silloin, kun varsinaista
> tavutusta ei käytetä/sallita, kertomaan mahdollinen katkoskohta
> rivinvaihtoa varten. Sitä ei saa riisua pois vuosta vaan se siirretään
> eteenpäin jos tietoa siirretään järjestelmästä toiseen tai vain eteenpäin.

Oikoluvussa varmaan kannattaa jättää tuo merkki huomioimatta. Ainakin 
OpenOffice poistaa sen ennen kuin antaa sanan oikolukukomponentin 
käsiteltäväksi.

Tietysti voisi olla mielenkiintoista pohtia, mitä tehdään jos tavutettava sana 
sisältää tavutusvihjeen. Tällöinhän olisi mahdollista teoriassa rakentaa 
ohjailtava tavutusohjelma. Siis siten, että jos sanaa ei voi luotettavasti 
tavuttaa automaattisesti (esim. "kaivosaukko") käyttäjä voisi lisätä 
tavutusvihjeen oikeaan paikkaan ("kaivos-aukko" tai "kaivo-saukko") ja 
tavutusohjelma hoitaisi loput tavurajat kohdalleen. Käytännössä esimerkiksi 
OpenOffice ei anna tavutusvihjeitä sisältäviä sanoja ollenkaan 
tavutusohjelman käsiteltäväksi, vaan olettaa että sanaa ei voi tavuttaa 
mistään muualta kuin sieltä mihin tavutusvihje on asetettu. Tämä on tietysti 
järkevääkin, vaikkei täysin ongelmatonta.

> Ajanilmaisuissa käytetään erottimena pistettä (eikä siis
> kaksoispistettä), koska tähän on päädytty myös juuri julkaistussa SFS
> 4175 -standardissa.

Tämä ei varmaan vaikuta oikolukuun tai tavutukseen, sillä emme varmaan halua 
edes yrittää tehdä oikolukuohjelmaa joka oikolukisi numeerisia ajan 
ilmauksia.

> Vaan mitenkäs tästä eteenpäin?

Asiaa käsittelevään OpenOfficen bugiin 58513 tuli juuri kommentti Karl 
Hongilta, jonka vastuualuetta nämä asiat ovat. Hän haluaisi lisäselvitystä 
asiaan, joten ehdotan että "standardoimme" tämän asian nyt itse yhdysviivan 
ja kaksoispisteen osalta, ja palaamme mahdollisiin muihin ongelmamerkkeihin 
myöhemmin. Nopein tapa kehittää tämä standardi on matkia MS Wordin toimintaa. 
Tätä varten tein testilomakkeen 
(http://www.hunspell-fi.org/ooo/tests/breakiterator.html). Pyytäisin, että ne 
joilla on Word käytettävissä (suomen kielen tuki on välttämätön) tekisivät 
nuo lomakkeessa olevat testit ja raportoisivat tuloksista. Mainitkaa myös 
käyttämänne Wordin versio. Otan myös vastaan muilla 
tekstinkäsittelyohjelmilla tehtyjä testejä, aina parempi mitä useamman 
olemassa olevan ohjelman toiminta on testattu. Lomakkeessa on jo esimerkin 
vuoksi OpenOfficella saadut tulokset. 

Kun testit on tehty, laitan täydennetyn lomakkeen IssueZillaan. Tietysti jos 
Word toimii tässä täysin järjettömällä tavalla, ei meidän tarvitse 
välttämättä sen toimintaa kopioida, mutta käytännössä luulen että 
Microsoftilla tätä asiaa on mietitty aika paljon. Varmistan myös, että Voikko 
selviää kaikista niistä merkeistä jota päätämme hyväksyä sanaan kuuluviksi. 
Itse asiassa se kyllä jo nyt ymmärtää kaksoispisteen ja yhdysviivan ihan 
hyvin.

Harri



More information about the devel mailing list