[voikko-devel] Sanojen poisto oikoluvun purussanastosta
Harri Pitkänen
hatapitk at cc.jyu.fi
Mon Jan 8 14:44:05 EET 2007
On Sunday 07 January 2007 19:52, Teemu Likonen wrote:
> Hannu Väisänen kirjoitti:
> > Olisi hyvä, jos oikoluvusta poistettavat sanat jätettäisiin
> > Suomi-malagan Sukija-versioon esim. varustettuna lipulla
> > tiedot: <ei_voikko>.
Näin tulee tapahtumaan.
> Kenties. Kommentoin itse näitä lippuja oikoluvun
> perussanastosta poistamiseksi. Ne ovat hieman outoja.
>
> (Tai erityisalan sanastot ovat selkeitä: Jos sana on liian
> alakohtainen termi, ammatti- tai nörttislangia, lipulla se voidaan
> luokitella ja poistaa perussanastosta.)
>
> Mutta... Joukahaisessa voisi käyttöliittymästä selkeästi laittaa omaan
> ryhmäänsä liput, jotka poistavat sanan perussanastosta.
Lippujen ja kenttien ryhmittely epäilemättä olisi hyödyllistä. Tämän voisi
tehdä samalla jos liittymän käytettävyyttä jossain vaiheessa muutenkin
parannellaan. En ole vain vielä keksinyt, mitä tehdään tilanteissa joissa
lippu tai kenttä kuuluu loogisesti useampaan kuin yhteen ryhmään.
> Erityisalojen
> lisäksi yksi yleisimmistä syistä on, että sana liittyy jotenkin
> kielivirheeseen. Se on joko indeksointia varten kirjoitusasultaan väärä
> (esim. "*asujamisto") tai sana on olemassa yhdyssanavirheen
> mahdollistamiseksi, vaikka se ei olisi itsenäinen sana. Nyt on olemassa
> liput "tyypillinen kirjoitusvirhe" ja "ei kuulu oikolukusanastoon", ja
> olen niitä kielivirhetilanteissa käyttänyt. Toisaalta on myös
> lippu "virheellinen sana". En oikein tajua lippujen merkityksiä ja
> eroja.
Näiden kolmen lipun määritelmiä ja nimiä olisi kyllä varaa vähän
yksinkertaistaa.
> Joskus sanat ovat harvinaisia ja mahdollisesti oikoluvun kannalta
> enemmän haitaksi kuin hyödyksi. Tarkempaa yleisyysluokitusta ei voi
> tehdä ilman kunnon korpuksia ja sanakohtaista tutkimusta (vie paljon
> aikaa).
Tästä olen eri mieltä. Käytännön sovellusten kannalta hyödyllisen
yleisyysluokituksen voi (ainakin silloin kun tietää sanan merkityksen) tehdä
ilman mitään lähdemateriaaleja muutaman sekunnin pohdinnan jälkeen. On
esimerkiksi helppo sanoa, että sana "valo" on yleisempi kuin "salo", eikä
oikolukuohjelmassa tarvita tarkempaa tietoa. Se, että nykyinen
yleisyysluokitus on kymmenportainen ei tarkoita sitä, että sanoja tarvitsisi,
tai olisi edes mahdollista, asettaa täsmällisesti oikeaan luokkaan.
Likimääräinen arvo on käytännössä riittävä. Tein asteikon tarkemmaksi vain
siksi, ettei sitä tarvitse myöhemmin alkaa muuttamaan jos joku oikeasti
haluaa ryhtyä tekemään korpustutkimusta sanojen yleisyyden määrittämiseksi.
> ...
>
> Kaiken kaikkiaan tämä näkökulma on konkreettinen: mukaan perussanastoon
> tai ei (+ syy). Tällainen näkökulma on käytännöllinen ja nopea, koska
> se ei vaadi aikaa vievää tutkimista joka sanan kohdalla.
Tässä vain on se ongelma, että työstä on varsin vähän hyötyä muuten kuin
Voikon perusversiota varten. Ne, jotka haluavat Voikosta karsitun version
(muistitilan rajoitukset tms.) tai jotka käyttäisivät samaa sanastoa vaikkapa
puheentunnistusohjelmassa joutuisivat käymään sanaston uudelleen läpi ja
tekemään samankaltaiset arviot omaa sovellustaan varten erikseen.
Yleisyysluokitusta käytetään Voikon perusversiossakin korjausehdotusten
laadun parantamiseen todennäköisesti vielä tämän vuoden puolella.
> Abstraktimpi
> näkökulma olisi se, että laittaa sanoille suuren määrän laadullisiin
> ominaisuuteen liittyviä lippuja ja kone niiden perusteella tietyllä
> logiikalla muodostaa päätöksen, tuleeko sana oikoluvun perussanastoon.
> Yksityiskohtaiset liput ovat hankalia, kun pitää pysähtyä tutkimaan
> asiaa (ja harrastuspohjalta ei päästä kovin päteviin tuloksiin).
Pakko ei ole pysähtyä, voi myös laittaa lipun "Ei kuulu oikolukusanastoon" ja
antaa muiden myöhemmin korvata sen yksityiskohtaisemmalla tiedolla.
Harri
More information about the devel
mailing list