[voikko-devel] Tavutuksen testausta

Teemu Likonen tlikonen at iki.fi
Wed May 9 20:48:37 EEST 2007


Harri Pitkänen kirjoitti:

> En aio nyt asettaa mitään suunniteltuja julkaisupäiviä millekään
> näistä paketeista. Sanotaanko vaikka niin, että ne julkaistaan, kun
> niitä on ensin riittävästi testattu ja löytyneet ongelmat on
> korjattu. Toivoisin, että tämä onnistuu kaikkien noiden komponenttien
> osalta parin viikon kuluessa.

Testailin tavutusta pääasiassa OpenOfficessa monella tavalla: 
heittomerkin sisältäviä sanoja, yhdysmerkin sisältäviä sanoja, 
yhdyssanoja, rakenne-kentän avulla "poikkeavasti" tavutettavia sanoja, 
lyhenteitä, eri sanaluokkien sanoja. Lisäksi kokeilin lisätä eri 
välimerkkejä sanan alkuun ja loppuun. Kokeilin ooo-voikon 
oletusasetuksilla sekä asetuksella, jossa tavutettavan sanan 
minimipituus lasketaan yhdyssanan osien perusteella, ei koko 
sananhahmon perusteella. Myös OOo:n manuaalista tavutusta testasin.

Yhtä asiaa lukuun ottamatta tavutus mielestäni toimii niin kuin on 
tarkoitus. Ongelmana ovat ligatuurit ja ongelma on - nyt vasta 
huomasin - myös vanhemmissa versioissa. Tavutuksessa huomioidaan 
esimerkiksi kirjoitusasu "fenomeno=grafia" mutta vain silloin, kun ei 
ole käytetty ligatuureja. Jos sanaan laitetaan fi-ligatuuri, sana 
tavutetaan sääntöpohjaisesti, ja siten myös tilanne "fenomenog-rafia" 
on mahdollinen.

Ongelman voi todentaa vaikka voikkohyphenate-ohjelmalla, mutta 
käytännössä ikävä se on OOo:ssa todellista tekstiä käsiteltäessä. 
Ligatuureja saatetaan lisätä tekstiin jälkikäteen etsi ja 
korvaa -toiminnolla. Sen aiheuttamat tavutusvirheet jäävät helposti 
huomaamatta.

Varmistettakoon vielä, että kuuluuko lyhenteiden päätteet ja liitteet 
jättää tavuttamatta? Mielestäni ne voi nykyiseen tapaan jättää 
tavuttamatta mutta järkevissä rajoissa oleva katkaisukohta olisi 
sijapäätteen ja liitteen välistä, esimerkiksi "USA:ssa-kaan". Missään 
nimessä ei kannata katkaista sijapäätettä ("USA:s-sa").

				* * *

Sitten pientä kitinää vanhasta ja tunnetusta mutta ehkä vähitellen 
entistä ajankohtaisemmaksi muuttuvasta asiasta. Ilmeisesti libvoikon 
tekemän merkistön normalisoinnin vuoksi 
(libvoikko/src/voikko_charset.c) Unicoden heittomerkki U+2019 muuttuu 
korjausehdotuksissa aina Ascii-heittomerkiksi. Normalisointi 
libvoikossa kuuluu asiaan, mutta OOo+ooo-voikossa sillä on ikäviä 
vaikutuksia.

Tekstinkäsittelyohjelmat usein muuttavat näppäimistöltä tuotettavan 
heittomerkin suomen kielen oikeinkirjoituksen mukaiseksi heittomerkiksi 
U+2019:ksi, mutta virheellisen sanan korjausehdotuksissa se palautuu 
Ascii-heittomerkiksi. Merkin joutuu sitten käsin muuttamaan, mikä on 
vähän ikävää. Minulla on hämärä muistikuva, että jokin OOo 2.0.4:ää 
vanhempi versio olisi korjannut sen jälleen Unicoden heittomerkiksi. 
Saatan muistaa väärinkin.

Sama koskee toki muitakin merkkejä. Jatkossa esimerkiksi Unicoden 
yhdysmerkki ja sitova yhdysmerkki sekä ligatuurit voisi olla fiksua 
palauttaa korjausehdotuksissa samoina OOo:lle, jos näiden merkkien tuki 
muutenkin kehittyy ooo-voikossa. Se mitä tällainen osa-aikainen 
äikänope osaa Voikon sisäistä logiikkaa kommentoida, niin kai se 
logiikka kuuluisi ooo-voikkoon, mikäli on ylipäänsä mahdollista.



More information about the devel mailing list