[voikko-devel] Diakriittisiä ongelmia

Harri Pitkänen hatapitk at cc.jyu.fi
Wed Aug 16 10:31:59 EEST 2006


On Wednesday 16 August 2006 09:03, Teemu Likonen wrote:
> Libvoikon tarjoamista ehdotuksista löysin seuraavanlaisen ongelman.
> Esimerkiksi *Linne-nimestä voikkospell tarjoaa seuraavaa:
>
> W: Linne
> S: Linnea
> S: Lianne
> S: Lionne
> S: L:inne
>
> Se oli siis väärin, mutta oikeaa versiota "Linné" ei ehdoteta.
> Sinänsä "Linné" kyllä tunnistetaan, jos sen kirjoittaa oikein é:llä tai
> e:llä ja yhdistävällä akuutilla. Samaan tapaan käy å:n kanssa.
> Sana "Stahlberg" ei tuota yhtään ehdotusta, vaikka "Ståhlberg" on
> sanastossa.

Korjattu.

> Seuraavaan esimerkkiin liittyy myös sama ongelma mutta myös
> toisenlainen. Sanalle "Chalons-sur-Marne" ei anneta yhtään ehdotusta,
> mutta jos käytän sirkumfleksiä eli kirjoitan "Châlons-sur-Marne", niin
> tulee sentään jotain:
>
> W: Châlons-sur-Marne
> S: Châlons-sur-marne
>
> M:lle ehdotetaan gemenaversiota. Ainakin sanastoon se on kirjoitettu
> oikein eli versaalilla:
>
> paikannimet.lex:[perusmuoto: "Châlons-sur-Marne",
> alku: "Châlons-sur-Marne", luokka: paikannimi, jatko: <parfait>, äs:
> a];

Tämä ei vielä riitä, koska Malaga ei välitä kirjaintasoista. Tarvitaan 
erillinen "rakenne:" -kenttä sen ilmaisemiseen, että erisnimessä käytetään 
versaalia muuallakin kuin ensimmäisessä kirjaimessa. Näitä ei ole lisätty 
kuin vain muutamiin tärkeimpiin kohtiin, koska Joukahaisen käyttöön 
siirtyminen korjaa tällaiset bugit automaattisesti.
Sama koskee osittain myös tavutusongelmia: nekin olisi voinut korjata 
aikaisemmin, mutta Joukahaisen kautta ne korjaantuvat helpommin (ja joissain 
tapauksissa myös automaattisesti).

> Hätäinen yhteenveto kai olisi se, että useimmat tarkkeelliset kirjaimet
> eivät toimi ehdotusalgoritmissa. Ä ja ö sekä š ja ž toimivat.

Tämä ei oikeastaan ole bugi. Kaikki merkkikorvaukset on listattu lähdekoodissa 
erikseen, koska jokaista ei ole mahdollista kokeilla käytettävissä olevan 
prosessoriajan puitteissa. Mukana on siis vain ne korvaukset, jotka olen 
katsonut suomen kielen kannalta tärkeimmiksi, eivätkä kaikki "tavallisten" 
suomalaisten merkkien korvaukset harvinaisiksi tarkkeellisiksi merkeiksi 
kuulu tähän joukkoon. Lisäsin kuitenkin nuo mistä kirjoitit, koska ne 
vaikuttivat suhteellisen hyödyllisiltä.

Harri



More information about the devel mailing list