[hunspell-fi-devel] Oikolukuohjelman tarkoitus -- kielipoliisi vai virheiden korjaaja?

Harri Pitkänen hatapitk at cc.jyu.fi
Sat Dec 3 22:13:55 EET 2005


On Friday 02 December 2005 19:08, Ville Nygrén wrote:
> Selvää on aikakin, että oikolukuohjelman tulee havaita
> kirjoitusvirheet, eli tapaukset, joissa käyttäjä
> on kirjoittanut toisin kun on ajatellut. Kaikkea muuta
> kuin itsestään selvää on kuitenkin se, tuleeko
> oikolukuohjelman havaita virheellisenä puhekieliset,
> murteelliset, alatyyliset tai erikoisalojen termit.
> Tietenkin oikoluku korjaa kirjoitettua tekstiä, joten tällä
> perusteella puhekieliset ja murteelliset ilmaukset
> kuuluisivat ei-hyväksyttäviin ilmauksiin. Toisaalta
> puhekielisiä ilmauksia, vaikka eivät hyvään asiatekstiin
> kuulukaan, voidaan käyttää myös kirjoitetussa kielessä.
> Jos kirjoittaja _tarkoituksella_ kirjoittaa puhekielisen
> ilmauksen, tulisiko ohjelman huomauttaa tästä, vai
> huomauttaa silloin jos ko. ilmaus on väärin?

Tähän asiaan ei varmaankaan löydy yhtä oikeaa vastausta. Se riippuu niin 
paljon tilanteista, joissa oikolukua tarvitaan. Jotkut ihmiset kirjoittavat 
pääasiassa tiukan kirjakielen mukaan, ja arvostavat sitä että oikolukuohjelma 
huomauttaa kaikesta, mikä ei siihen tyyliin sovi. Toiset taas kirjoittavat 
hyvin epämuodollista kieltä (esimerkiksi sähköpostia kavereille) ja laittavat 
oikoluvun heti pois, jos se alkaa häiritsevissä määrin puuttua käytettyihin 
sanavalintoihin. Itse teen molempia: tyyli jota nyt käytän on aika lailla 
erilainen kuin se, jota aion käyttää viestissä jonka kirjoittamisen aloitan 
tämän lähetettyäni.

Ehkä kannattaisi muistaa se, että Hunspell-fi ei ole ensisijaisesti suoraan 
loppukäyttäjille oikolukuohjelmaa tekevä projekti. Sitten kun saamme jotain 
aikaiseksi, muut projektit voivat hyödyntää tuotostamme, ja nämä toiset 
projektit lopulta päätävät puolestamme mitä sanastoon sopii laittaa. Eli 
parasta varmaan on yrittää huomoida mahdollisimman monenlaiset tarpeet ja 
tehdä sanastostamme käyttökelpoinen erilaisiin tarkoituksiin. Tätä varten 
voidaan sanoja luokitella, ja julkaisin juuri sanastosta version joka 
sisältää Jarnon torstaina lähettämästä sanastosta puhekielisinä pois 
jättämäni sanat. Mutta ne on nyt merkitty sellaisiksi:

inssi   subst-p         L=puhek
isi     subst-p         L=puhek
jobbari subst-p         L=puhek
intti   subst-p-av1     L=puhek
jeeppi  subst-p-av1     L=puhek

Tuossa edellä siis toinen ja kolmas kenttä on erotettu sarkaimella, kuten 
ensimmäinen ja toinenkin. Kolmas kenttä on parametrikenttä, ja siihen voimme 
ajan kanssa lisäillä muutakin tarpeelliseksi katsomaamme informaatiota. 
L-parametri sisältää pilkuilla erotetun listan luokista joihin sana kuuluu, 
ja näiden luokkien nimistä ja merkityksistä pitää yrittää saada aikaiseksi 
jonkinlainen lista. "puhek" tarkoittaa tietysti puhekielistä sanaa, muut 
luokat voisivat esimerkiksi kuvata tieteenalakohtaista erikoissanastoa. 
Normaaleille yleiskielen sanoille ei mitään luokkainformaatiota tarvitse 
tietenkään laittaa.
Nyt on tietysti niin, että sanastossa jo on useita hyvinkin erikoisalojen 
sanoja, jotka voisi olla hyödyllistä merkitä sellaisiksi. Tämä nyt ei 
kuitenkaan ole kovin oleellinen asia, hf-luolistat joka tapauksessa sivuuttaa 
toistaiseksi tämän luokkainformaation kokonaan, eli nuo puhekielisetkin sanat 
tulevat mukaan oikolukuun. Tämä on järkevää sanaston kokoamisen kannalta, 
ettei sanoja tule lisättyä moneen kertaan.

Ja vielä kiitos Reijolle parannuksesta sanastonkeruusovellukseen. Yritän 
jatkossa muistaa merkitä listoja käsitellessä hylkäämäni sanat poistetuiksi 
tuota kautta itse, teidän ei siis tarvitse enää huolehtia siitä asiasta.

Harri



More information about the devel mailing list