[hunspell-fi-devel] Suomi-malaga, sukija ja UTF-8

Harri Pitkänen hatapitk at cc.jyu.fi
Tue Apr 4 16:03:45 EEST 2006


On Tuesday 04 April 2006 07:59, Hannu Väisänen wrote:
> Suomi-malagan ja sukijan seuraava versio käyttää UTF-8:aa. Sukija voi
> toki edelleen indeksoida myös ISO-8859-15 -koodattuja tiedostoja.
>
> Suomi-malagan muuttamiseksi riittä, kun koodaa tiedostot
> UTF-8:ksi, sukijan muuttamisessa on enemmän työtä.
>
> Aikataulusta sanon sen verran, että uusi versio ilmestyy
> silloin, kun se ilmestyy. (-:

Hienoa. Muutamia pieniä bugeja olen Suomi-malagassa viime viikkoina havainnut:

- "portviini" taipuu "portviinia", pitäisi olla "portviiniä"

- yhdyssanat muotoa nomini+"itse" hyväksytään, vaikka ne eivät mielestäni ole 
oikein. Esimerkiksi
malaga> ma alaitse
Analyses of "alaitse":
1: "=ala=itse"
malaga> ma sivuitse
Analyses of "sivuitse":
1: "=sivu=itse"
malaga> ma peräitse
Analyses of "peräitse":
1: "=perä=itse"
malaga> ma kaunisitse
Analyses of "kaunisitse":
1: "=kaunis=itse"
Toisaalta esimerkiksi "sivuitse" on kyllä oikein, jos se tulkitaan 
sanan "sivu" prolatiivimuodoksi. Yhdyssanaksi tulkinta kuitenkin rikkoo 
tavutuksen, sillä nyt nuo kolme ensimmäistä sanaa tavuttuvat väärin (ne ovat 
Juhani Ahon Rautatiestä).

- toinenkin yhdyssanaongelma, jälleen Rautatiestä:
malaga> ma samanlaisilta
Analyses of "samanlaisilta":
1: "=saman=lais=ilta"
2: "=saman=lainen"
Tämäkin (siis tuo vaihtoehto 1) aiheuttaa väärän tavutuksen. Näyttäisi siltä, 
että Suomi-malaga hyväksyy minkä tahansa yhdistelmän "samanlais"+nomini 
ja "erilais"+nomini, mitkä kuitenkaan eivät taida olla yleisesti 
hyväksyttäviä.

Muuten tuo tavutus alkaa olla käyttökelpoisessa kunnossa (ei löydy vielä 
CVS:stä, SourceForgella on teknisiä ongelmia). 6418 sanan testiaineistosta 
tavuttuu väärin enää kahdeksan sanaa, ja näistäkin virheistä neljä 
korjaantuisi jos yllä mainitut bugit saisi korjattua. Tämä alkaa jo olla aika 
hyvä tulos, luultavasti aivan riittävän hyvä normaaliin käyttöön ja varmasti 
parempi kuin mihin pelkällä sääntöpohjaisella tavutuksella pääsisi.

Harri



More information about the devel mailing list