[hunspell-fi-devel] Suomi-malaga, sukija ja UTF-8
Harri Pitkänen
hatapitk at cc.jyu.fi
Tue Apr 4 16:03:45 EEST 2006
On Tuesday 04 April 2006 07:59, Hannu Väisänen wrote:
> Suomi-malagan ja sukijan seuraava versio käyttää UTF-8:aa. Sukija voi
> toki edelleen indeksoida myös ISO-8859-15 -koodattuja tiedostoja.
>
> Suomi-malagan muuttamiseksi riittä, kun koodaa tiedostot
> UTF-8:ksi, sukijan muuttamisessa on enemmän työtä.
>
> Aikataulusta sanon sen verran, että uusi versio ilmestyy
> silloin, kun se ilmestyy. (-:
Hienoa. Muutamia pieniä bugeja olen Suomi-malagassa viime viikkoina havainnut:
- "portviini" taipuu "portviinia", pitäisi olla "portviiniä"
- yhdyssanat muotoa nomini+"itse" hyväksytään, vaikka ne eivät mielestäni ole
oikein. Esimerkiksi
malaga> ma alaitse
Analyses of "alaitse":
1: "=ala=itse"
malaga> ma sivuitse
Analyses of "sivuitse":
1: "=sivu=itse"
malaga> ma peräitse
Analyses of "peräitse":
1: "=perä=itse"
malaga> ma kaunisitse
Analyses of "kaunisitse":
1: "=kaunis=itse"
Toisaalta esimerkiksi "sivuitse" on kyllä oikein, jos se tulkitaan
sanan "sivu" prolatiivimuodoksi. Yhdyssanaksi tulkinta kuitenkin rikkoo
tavutuksen, sillä nyt nuo kolme ensimmäistä sanaa tavuttuvat väärin (ne ovat
Juhani Ahon Rautatiestä).
- toinenkin yhdyssanaongelma, jälleen Rautatiestä:
malaga> ma samanlaisilta
Analyses of "samanlaisilta":
1: "=saman=lais=ilta"
2: "=saman=lainen"
Tämäkin (siis tuo vaihtoehto 1) aiheuttaa väärän tavutuksen. Näyttäisi siltä,
että Suomi-malaga hyväksyy minkä tahansa yhdistelmän "samanlais"+nomini
ja "erilais"+nomini, mitkä kuitenkaan eivät taida olla yleisesti
hyväksyttäviä.
Muuten tuo tavutus alkaa olla käyttökelpoisessa kunnossa (ei löydy vielä
CVS:stä, SourceForgella on teknisiä ongelmia). 6418 sanan testiaineistosta
tavuttuu väärin enää kahdeksan sanaa, ja näistäkin virheistä neljä
korjaantuisi jos yllä mainitut bugit saisi korjattua. Tämä alkaa jo olla aika
hyvä tulos, luultavasti aivan riittävän hyvä normaaliin käyttöön ja varmasti
parempi kuin mihin pelkällä sääntöpohjaisella tavutuksella pääsisi.
Harri
More information about the devel
mailing list