[hunspell-fi-devel] Sikamainen munakoiso
Harri Pitkänen
hatapitk at cc.jyu.fi
Thu Nov 24 21:13:15 EET 2005
On Thursday 24 November 2005 13:41, Jori Mantysalo wrote:
> Tästä nyt tulee jotenkin mieleen, että voisiko lopullinen oikoluku näyttää
> kahdenlaisia värejä: punaisella selvä virhe mallia 'kisssat', ja
> keltaisella sellainen joka kannattaa tarkistaa, esim. 'loihe' (onhan tuo
> _periaatteessa_ normaali sana, mutta asiatekstissä ei varsin tavallinen
> näin 2000-luvulla) ja 'valomainen' tms. vaikea johdos.
Ei pitäisi olla suurikaan ongelma muokata Hunspelliä niin, että se pystyisi
arvioimaan sanan hyväksyttävyyttä tarkemminkin kuin vain kahden vaihtoehdon
oikein/väärin -asteikolla. Uusimmissa versioissa on jo tuki sille, että
jotkut sanat voidaan merkata hyväksyttäviksi, mutta kuitenkin sellaisiksi
ettei niitä koskaan ehdoteta korjauksena virheellisen sanan tilalle. Ja
Hunspell-fi -affiksitiedostoon tein jo alkusyksystä laajennuksen (jota
Hunspell itsessään ei tue) joka mahdollistaa taivutusmuotojen luokittelun
kolmeen ryhmään: ehdottomasti hyväksyttävä (SFX-rivit), hyväksyttävä
rinnakkaismuoto (SFX2-rivit) ja harvinainen tai käytöstä poistunut
rinnakkaismuoto (SFX3-rivit). hf-luolistat voi sitten haluttaessa luoda
affiksitiedostosta version, josta SFX3 ja/tai SFX2 -taivutukset on jätetty
pois.
Mutta varsinainen ongelma onkin siinä, että ilmeisesti yksikään vapaa
tekstinkäsittelyohjelma ei tue tällaista useamman värin alleviivausta.
Tarkistin äsken OpenOfficen, libenchantin (Abiwordin käyttämä
oikolukukirjasto) ja Kspell2:n (KDE:n oikolukukomponentti)
ohjelmointirajapinnat, ja niissä kaikissa oletetaan, että käytettävä
oikolukuohjelma palauttaa vain tiedon siitä, oliko sana oikein vai väärin.
(Libenchantin tapauksessa palautusarvo oli kyllä int-tyyppiä, mutta
rajapinnan määritelmä oli asetettu siten, että 0 on oikein, > 0 väärin ja < 0
sisäinen virhe oikoluvussa.) Eli jos tällaisen ominaisuuden lisäisimme,
joutuisimme vielä suostuttelemaan jonkun käyttämään sitä tai tekemään oman
tekstinkäsittelyohjelman.
> Paljonko koodi monimutkaistuu, jos otetaan sallittu taivutusmuoto -bittejä
> käyttöön? Eli esim. juuri -mainen -liite joko sallittaisiin tai
> kiellettäisiin; tai ehkä monimutkaisemmassa mallissa annettaisiin arvo
> joka voisi tarkoittaa siltä väliltä olevaa "epäilyttävä, tarkista".
Hunspelliä voisi ehkä muokata niin, että asetusta olisi mahdollista muutella
ohjelman käytön aikana. Tähän ei kuitenkaan ole olemassa käyttöliittymiä.
Sanaston ja affiksitiedoston generoinnin yhteyteen voimme tietysti lisätä
tällaisia asetuksia niin paljon kuin vain haluamme, ja yksi tuollainen asetus
meillä tosiaan on jo olemassa. SFST-ohjelmassa voi olla vaikeampaa muutella
mitään sen jälkeen kun automaatti on käännetty, tosin en ole vielä ehtinyt
perehtymään teoriapuoleen niin paljon että osaisin varmasti tätä asiaa sanoa.
Harri
More information about the devel
mailing list