[hunspell-fi-devel] Sikamainen munakoiso

Harri Pitkänen hatapitk at cc.jyu.fi
Thu Nov 24 21:13:15 EET 2005


On Thursday 24 November 2005 13:41, Jori Mantysalo wrote:
> Tästä nyt tulee jotenkin mieleen, että voisiko lopullinen oikoluku näyttää
> kahdenlaisia värejä: punaisella selvä virhe mallia 'kisssat', ja
> keltaisella sellainen joka kannattaa tarkistaa, esim. 'loihe' (onhan tuo
> _periaatteessa_ normaali sana, mutta asiatekstissä ei varsin tavallinen
> näin 2000-luvulla) ja 'valomainen' tms. vaikea johdos.

Ei pitäisi olla suurikaan ongelma muokata Hunspelliä niin, että se pystyisi 
arvioimaan sanan hyväksyttävyyttä tarkemminkin kuin vain kahden vaihtoehdon 
oikein/väärin -asteikolla. Uusimmissa versioissa on jo tuki sille, että 
jotkut sanat voidaan merkata hyväksyttäviksi, mutta kuitenkin sellaisiksi 
ettei niitä koskaan ehdoteta korjauksena virheellisen sanan tilalle. Ja 
Hunspell-fi -affiksitiedostoon tein jo alkusyksystä laajennuksen (jota 
Hunspell itsessään ei tue) joka mahdollistaa taivutusmuotojen luokittelun 
kolmeen ryhmään: ehdottomasti hyväksyttävä (SFX-rivit), hyväksyttävä 
rinnakkaismuoto (SFX2-rivit) ja harvinainen tai käytöstä poistunut 
rinnakkaismuoto (SFX3-rivit). hf-luolistat voi sitten haluttaessa luoda 
affiksitiedostosta version, josta SFX3 ja/tai SFX2 -taivutukset on jätetty 
pois.

Mutta varsinainen ongelma onkin siinä, että ilmeisesti yksikään vapaa 
tekstinkäsittelyohjelma ei tue tällaista useamman värin alleviivausta. 
Tarkistin äsken OpenOfficen, libenchantin (Abiwordin käyttämä 
oikolukukirjasto) ja Kspell2:n (KDE:n oikolukukomponentti) 
ohjelmointirajapinnat, ja niissä kaikissa oletetaan, että käytettävä 
oikolukuohjelma palauttaa vain tiedon siitä, oliko sana oikein vai väärin. 
(Libenchantin tapauksessa palautusarvo oli kyllä int-tyyppiä, mutta 
rajapinnan määritelmä oli asetettu siten, että 0 on oikein, > 0 väärin ja < 0 
sisäinen virhe oikoluvussa.) Eli jos tällaisen ominaisuuden lisäisimme, 
joutuisimme vielä suostuttelemaan jonkun käyttämään sitä tai tekemään oman 
tekstinkäsittelyohjelman.

> Paljonko koodi monimutkaistuu, jos otetaan sallittu taivutusmuoto -bittejä
> käyttöön? Eli esim. juuri -mainen -liite joko sallittaisiin tai
> kiellettäisiin; tai ehkä monimutkaisemmassa mallissa annettaisiin arvo
> joka voisi tarkoittaa siltä väliltä olevaa "epäilyttävä, tarkista".

Hunspelliä voisi ehkä muokata niin, että asetusta olisi mahdollista muutella 
ohjelman käytön aikana. Tähän ei kuitenkaan ole olemassa käyttöliittymiä. 
Sanaston ja affiksitiedoston generoinnin yhteyteen voimme tietysti lisätä 
tällaisia asetuksia niin paljon kuin vain haluamme, ja yksi tuollainen asetus 
meillä tosiaan on jo olemassa. SFST-ohjelmassa voi olla vaikeampaa muutella 
mitään sen jälkeen kun automaatti on käännetty, tosin en ole vielä ehtinyt 
perehtymään teoriapuoleen niin paljon että osaisin varmasti tätä asiaa sanoa.

Harri



More information about the devel mailing list