[hunspell-fi-devel] Oikolukuohjelman tarkoitus -- kielipoliisi vai virheiden korjaaja?
Harri Pitkänen
hatapitk at cc.jyu.fi
Sat Dec 3 22:13:55 EET 2005
On Friday 02 December 2005 19:08, Ville Nygrén wrote:
> Selvää on aikakin, että oikolukuohjelman tulee havaita
> kirjoitusvirheet, eli tapaukset, joissa käyttäjä
> on kirjoittanut toisin kun on ajatellut. Kaikkea muuta
> kuin itsestään selvää on kuitenkin se, tuleeko
> oikolukuohjelman havaita virheellisenä puhekieliset,
> murteelliset, alatyyliset tai erikoisalojen termit.
> Tietenkin oikoluku korjaa kirjoitettua tekstiä, joten tällä
> perusteella puhekieliset ja murteelliset ilmaukset
> kuuluisivat ei-hyväksyttäviin ilmauksiin. Toisaalta
> puhekielisiä ilmauksia, vaikka eivät hyvään asiatekstiin
> kuulukaan, voidaan käyttää myös kirjoitetussa kielessä.
> Jos kirjoittaja _tarkoituksella_ kirjoittaa puhekielisen
> ilmauksen, tulisiko ohjelman huomauttaa tästä, vai
> huomauttaa silloin jos ko. ilmaus on väärin?
Tähän asiaan ei varmaankaan löydy yhtä oikeaa vastausta. Se riippuu niin
paljon tilanteista, joissa oikolukua tarvitaan. Jotkut ihmiset kirjoittavat
pääasiassa tiukan kirjakielen mukaan, ja arvostavat sitä että oikolukuohjelma
huomauttaa kaikesta, mikä ei siihen tyyliin sovi. Toiset taas kirjoittavat
hyvin epämuodollista kieltä (esimerkiksi sähköpostia kavereille) ja laittavat
oikoluvun heti pois, jos se alkaa häiritsevissä määrin puuttua käytettyihin
sanavalintoihin. Itse teen molempia: tyyli jota nyt käytän on aika lailla
erilainen kuin se, jota aion käyttää viestissä jonka kirjoittamisen aloitan
tämän lähetettyäni.
Ehkä kannattaisi muistaa se, että Hunspell-fi ei ole ensisijaisesti suoraan
loppukäyttäjille oikolukuohjelmaa tekevä projekti. Sitten kun saamme jotain
aikaiseksi, muut projektit voivat hyödyntää tuotostamme, ja nämä toiset
projektit lopulta päätävät puolestamme mitä sanastoon sopii laittaa. Eli
parasta varmaan on yrittää huomoida mahdollisimman monenlaiset tarpeet ja
tehdä sanastostamme käyttökelpoinen erilaisiin tarkoituksiin. Tätä varten
voidaan sanoja luokitella, ja julkaisin juuri sanastosta version joka
sisältää Jarnon torstaina lähettämästä sanastosta puhekielisinä pois
jättämäni sanat. Mutta ne on nyt merkitty sellaisiksi:
inssi subst-p L=puhek
isi subst-p L=puhek
jobbari subst-p L=puhek
intti subst-p-av1 L=puhek
jeeppi subst-p-av1 L=puhek
Tuossa edellä siis toinen ja kolmas kenttä on erotettu sarkaimella, kuten
ensimmäinen ja toinenkin. Kolmas kenttä on parametrikenttä, ja siihen voimme
ajan kanssa lisäillä muutakin tarpeelliseksi katsomaamme informaatiota.
L-parametri sisältää pilkuilla erotetun listan luokista joihin sana kuuluu,
ja näiden luokkien nimistä ja merkityksistä pitää yrittää saada aikaiseksi
jonkinlainen lista. "puhek" tarkoittaa tietysti puhekielistä sanaa, muut
luokat voisivat esimerkiksi kuvata tieteenalakohtaista erikoissanastoa.
Normaaleille yleiskielen sanoille ei mitään luokkainformaatiota tarvitse
tietenkään laittaa.
Nyt on tietysti niin, että sanastossa jo on useita hyvinkin erikoisalojen
sanoja, jotka voisi olla hyödyllistä merkitä sellaisiksi. Tämä nyt ei
kuitenkaan ole kovin oleellinen asia, hf-luolistat joka tapauksessa sivuuttaa
toistaiseksi tämän luokkainformaation kokonaan, eli nuo puhekielisetkin sanat
tulevat mukaan oikolukuun. Tämä on järkevää sanaston kokoamisen kannalta,
ettei sanoja tule lisättyä moneen kertaan.
Ja vielä kiitos Reijolle parannuksesta sanastonkeruusovellukseen. Yritän
jatkossa muistaa merkitä listoja käsitellessä hylkäämäni sanat poistetuiksi
tuota kautta itse, teidän ei siis tarvitse enää huolehtia siitä asiasta.
Harri
More information about the devel
mailing list