[hunspell-fi-devel] Oikolukuohjelman tarkoitus -- kielipoliisi vai virheiden korjaaja?

Jori Mantysalo jori at cs.uta.fi
Mon Dec 5 10:40:20 EET 2005


On Fri, 2 Dec 2005, Ville Nygrén wrote:

> Jos halutaan tehdä ohjelma, joka korjaa ihmisten tyyli- tms. "virheitä",
> mennään mielestäni hakoteille.

Eräässä scifi-kirjassa on lause "Kaikki luvut yhden ja äärettömän väliltä
ovat mielettömiä" tjsp. Teen tästä tietokoneversion: "Kaikki luvut kahden
(bool) ja kahden miljardin (int) väliltä ovat mielettömiä".

Eli _jos_ täytyy sanoista merkitä enemmän kuin kuuluu sanastoon / ei kuulu
sanastoon, _niin_ samalla vaivalla voi sitten yleensä merkitä hyvinkin
moniportaisia arvoja. Tämä siis ohjelmakoodin kannalta - kokonaan toinen
asia on, että sanaston keruuta hidastaa paljonkin jos sanalle pitää
miettiä monenlaisia arvoja.

Muutos ohjelmaan oli ilmeisesti helppo. Nyt voidaan merkitä sanoja
puhekielisiksi, mutta jos näyttää että ominaisuudelle ei ole käyttöä,
voidaan koko kolmas sanastokenttä jättää pois. Näinpäinhän muutos voidaan
aina tehdä, sen sijaan jälkikäteen on vaikeampi alkaa jakamaan sanastoja.

Vielä yksi asia on oikoluvun tarkkuus. Väistämättä tulee näitä "Talo on
punainen" vs. "Valo on punainen" -kohtia. Mutta lisäksi tulee muutakin,
nimittäin ottamalla käyttöön aivan älyttömän laaja sanasto saadaan kenties
aikaan virheitä joita ei huomata. Esim. "älyttömän laja sanasto": Google
näyttää löytävän hakusanalla 'laja' jotain, ja helpostihan tuo on nimi
jollekin kaukaisen maan pienelle paikkakunnalle.

En ole kielen asiantuntija, joten en osaa sanoa miten paljon
taivutusmuotojen runsaus lisää ongelmaa. Esimerkkejä toki löydän:
'albumiinit' voi olla virhe (albumi -sanan taivutus ja ylimääräinen tee),
mutta 'albumiini' on proteiini joten tuo voi olla aivan oikein. Tosin
tässä tapauksessa sekä albumi että albumiini ovat melko harvinaisia
sanoja.

-- 
Jori Mäntysalo
Laboratorioinsinööri
TAUCHI / Tietojenkäsittelytieteiden laitos / Tampereen yliopisto
Puh. 03-35518893, email jori at cs.uta.fi, kotisivu http://www.uta.fi/%7ejm58660/



More information about the devel mailing list