[voikko-devel] Unicode-asiaa
Harri Pitkänen
hatapitk at cc.jyu.fi
Sat Aug 12 22:37:03 EEST 2006
Teemu lisäili todo-listalle joitakin Unicodeen liittyviä korjauksia
libvoikkoon:
http://www.hunspell-fi.org/todo.html
Olen ajatellut korjata nuo asiat libvoikon seuraavaan versioon, mutta näissä
on muutamia epätriviaaleja kohtia joihin haluaisin kuulla vähän muidenkin
mielipiteitä. Oleellisesti tässä on kyse Unicoden normalisoinnista, joka on
aivan liian monimutkainen prosessi toteutettavaksi kokonaan standardin
määrittämällä tavalla. Ehdotankin seuraavaa:
1) Määritellään lista merkeistä, jotka voivat sellaisenaan olla hyväksyttäviä
tekstissä. Tämä ei ole aivan sama asia kuin keväällä puheena ollut lista
suomenkielisessä tekstissä hyväksyttävistä merkeistä, sillä jossain määrin on
järkevää hyväksyä ainakin joitakin yleisimpiä vieraskielisiä kirjaimia
vaikkapa nimissä tai kreikkalaisia kirjaimia yksiköissä yms.
2) Tehdään toinen lista merkeistä tai merkkiyhdistelmistä, jotka ovat
hyväksyttäviä mutta jotka kuitenkin muutetaan joksikin toiseksi merkiksi
ennen Malagalle antamista. Teemu voisikin listata nämä muunnokset, koska on
näitä jo todo-listalle laittanut ja hallitsee asiat varmasti paremmin kuin
minä. Siis muodossa
U+1234 + U+5678 -> U+9012 (yhdistävät tarkkeet) ja
U+1111 -> U+2222 (heittomerkit, yhdysviivat)
Muunnoksen suunta on siis aina niin, että muunnetaan siihen merkkiin jota
Suomi-malagassa on käytetty. Siis HYPHEN -> HYPHEN-MINUS. Jos saisin noista
valmiin listan, siitä voisi helposti tehdä muunnostaulukon libvoikon
lähdekoodiin.
3) Libvoikkoon lisätään asetus, joka määrittelee mitä tehdään sanoille jotka
sisältävät merkkejä, joita ei löydy kummastakaan edellä mainitusta ryhmästä.
Nämä on joko hylättävä tai hyväksyttävä ilman oikolukua, sovelluksesta
riippuu kumpi vaihtoehto on parempi. Oletus on hylätä sanat kuten nykyinen
versio tekee. Hyväksyttäville sanoille tehdään kohdan 2
mukainen "normalisaatio" ja korjausehdotukset annetaan aina tässä
normaalimuodossa. Näin on pakko tehdä, koska jos käyttäjä kirjoittaa
vaikkapa "vaaan" ja oikolukuohjelma haluaa ehdottaa korjausta "vaa'an" [1],
ei se mitenkään voi tietää kumman tyyppistä heittomerkkiä käyttäjä haluaisi
käyttää. Tämä "tavallisesti käytetty" heittomerkki on turvallisempi, sillä
kaikissa sovelluksissa "oikea" heittomerkki ei välttämättä edes toimi.
Tavutus muodostuu tässä pienoiseksi ongelmaksi, koska normaalimuodolle
asetetut tavurajat eivät välttämättä osu samaan kohtaan kuin tavurajat
alkuperäisessä merkkijonossa, jos on käytetty yhdistäviä tarkkeita. Tämä on
kuitenkin vain tekninen yksityiskohta joka mutkistaa tavutuskoodia hiukan.
Harri
[1] ... mitä libvoikko ei näemmä osaa tehdä, tässähän on bugi :)
More information about the devel
mailing list