[voikko-devel] Unicode-asiaa

Sat Aug 12 22:37:03 EEST 2006

Teemu lisäili todo-listalle joitakin Unicodeen liittyviä korjauksia 
libvoikkoon:
http://www.hunspell-fi.org/todo.html

Olen ajatellut korjata nuo asiat libvoikon seuraavaan versioon, mutta näissä 
on muutamia epätriviaaleja kohtia joihin haluaisin kuulla vähän muidenkin 
mielipiteitä. Oleellisesti tässä on kyse Unicoden normalisoinnista, joka on 
aivan liian monimutkainen prosessi toteutettavaksi kokonaan standardin 
määrittämällä tavalla. Ehdotankin seuraavaa:

1) Määritellään lista merkeistä, jotka voivat sellaisenaan olla hyväksyttäviä 
tekstissä. Tämä ei ole aivan sama asia kuin keväällä puheena ollut lista 
suomenkielisessä tekstissä hyväksyttävistä merkeistä, sillä jossain määrin on 
järkevää hyväksyä ainakin joitakin yleisimpiä vieraskielisiä kirjaimia 
vaikkapa nimissä tai kreikkalaisia kirjaimia yksiköissä yms.

2) Tehdään toinen lista merkeistä tai merkkiyhdistelmistä, jotka ovat 
hyväksyttäviä mutta jotka kuitenkin muutetaan joksikin toiseksi merkiksi 
ennen Malagalle antamista. Teemu voisikin listata nämä muunnokset, koska on 
näitä jo todo-listalle laittanut ja hallitsee asiat varmasti paremmin kuin 
minä. Siis muodossa
U+1234 + U+5678 -> U+9012 (yhdistävät tarkkeet) ja
U+1111 -> U+2222 (heittomerkit, yhdysviivat)
Muunnoksen suunta on siis aina niin, että muunnetaan siihen merkkiin jota 
Suomi-malagassa on käytetty. Siis HYPHEN -> HYPHEN-MINUS. Jos saisin noista 
valmiin listan, siitä voisi helposti tehdä muunnostaulukon libvoikon 
lähdekoodiin.

3) Libvoikkoon lisätään asetus, joka määrittelee mitä tehdään sanoille jotka 
sisältävät merkkejä, joita ei löydy kummastakaan edellä mainitusta ryhmästä. 
Nämä on joko hylättävä tai hyväksyttävä ilman oikolukua, sovelluksesta 
riippuu kumpi vaihtoehto on parempi. Oletus on hylätä sanat kuten nykyinen 
versio tekee. Hyväksyttäville sanoille tehdään kohdan 2 
mukainen "normalisaatio" ja korjausehdotukset annetaan aina tässä 
normaalimuodossa. Näin on pakko tehdä, koska jos käyttäjä kirjoittaa 
vaikkapa "vaaan" ja oikolukuohjelma haluaa ehdottaa korjausta "vaa'an" [1], 
ei se mitenkään voi tietää kumman tyyppistä heittomerkkiä käyttäjä haluaisi 
käyttää. Tämä "tavallisesti käytetty" heittomerkki on turvallisempi, sillä 
kaikissa sovelluksissa "oikea" heittomerkki ei välttämättä edes toimi.

Tavutus muodostuu tässä pienoiseksi ongelmaksi, koska normaalimuodolle 
asetetut tavurajat eivät välttämättä osu samaan kohtaan kuin tavurajat 
alkuperäisessä merkkijonossa, jos on käytetty yhdistäviä tarkkeita. Tämä on 
kuitenkin vain tekninen yksityiskohta joka mutkistaa tavutuskoodia hiukan.

Harri

[1] ... mitä libvoikko ei näemmä osaa tehdä, tässähän on bugi :)