[voikko-devel] Sanojen poisto oikoluvun purussanastosta

Harri Pitkänen hatapitk at cc.jyu.fi
Mon Jan 8 14:44:05 EET 2007


On Sunday 07 January 2007 19:52, Teemu Likonen wrote:
> Hannu Väisänen kirjoitti:
> > Olisi hyvä, jos oikoluvusta poistettavat sanat jätettäisiin
> > Suomi-malagan Sukija-versioon esim. varustettuna lipulla
> > tiedot: <ei_voikko>.

Näin tulee tapahtumaan.

> Kenties. Kommentoin itse näitä lippuja oikoluvun
> perussanastosta poistamiseksi. Ne ovat hieman outoja.
>
> (Tai erityisalan sanastot ovat selkeitä: Jos sana on liian
> alakohtainen termi, ammatti- tai nörttislangia, lipulla se voidaan
> luokitella ja poistaa perussanastosta.)
>
> Mutta... Joukahaisessa voisi käyttöliittymästä selkeästi laittaa omaan
> ryhmäänsä liput, jotka poistavat sanan perussanastosta.

Lippujen ja kenttien ryhmittely epäilemättä olisi hyödyllistä. Tämän voisi 
tehdä samalla jos liittymän käytettävyyttä jossain vaiheessa muutenkin 
parannellaan. En ole vain vielä keksinyt, mitä tehdään tilanteissa joissa 
lippu tai kenttä kuuluu loogisesti useampaan kuin yhteen ryhmään.

> Erityisalojen 
> lisäksi yksi yleisimmistä syistä on, että sana liittyy jotenkin
> kielivirheeseen. Se on joko indeksointia varten kirjoitusasultaan väärä
> (esim. "*asujamisto") tai sana on olemassa yhdyssanavirheen
> mahdollistamiseksi, vaikka se ei olisi itsenäinen sana. Nyt on olemassa
> liput "tyypillinen kirjoitusvirhe" ja "ei kuulu oikolukusanastoon", ja
> olen niitä kielivirhetilanteissa käyttänyt. Toisaalta on myös
> lippu "virheellinen sana". En oikein tajua lippujen merkityksiä ja
> eroja.

Näiden kolmen lipun määritelmiä ja nimiä olisi kyllä varaa vähän 
yksinkertaistaa.


> Joskus sanat ovat harvinaisia ja mahdollisesti oikoluvun kannalta
> enemmän haitaksi kuin hyödyksi. Tarkempaa yleisyysluokitusta ei voi
> tehdä ilman kunnon korpuksia ja sanakohtaista tutkimusta (vie paljon
> aikaa).

Tästä olen eri mieltä. Käytännön sovellusten kannalta hyödyllisen 
yleisyysluokituksen voi (ainakin silloin kun tietää sanan merkityksen) tehdä 
ilman mitään lähdemateriaaleja muutaman sekunnin pohdinnan jälkeen. On 
esimerkiksi helppo sanoa, että sana "valo" on yleisempi kuin "salo", eikä 
oikolukuohjelmassa tarvita tarkempaa tietoa. Se, että nykyinen 
yleisyysluokitus on kymmenportainen ei tarkoita sitä, että sanoja tarvitsisi, 
tai olisi edes mahdollista, asettaa täsmällisesti oikeaan luokkaan. 
Likimääräinen arvo on käytännössä riittävä. Tein asteikon tarkemmaksi vain 
siksi, ettei sitä tarvitse myöhemmin alkaa muuttamaan jos joku oikeasti 
haluaa ryhtyä tekemään korpustutkimusta sanojen yleisyyden määrittämiseksi.

> ...
>
> Kaiken kaikkiaan tämä näkökulma on konkreettinen: mukaan perussanastoon
> tai ei (+ syy). Tällainen näkökulma on käytännöllinen ja nopea, koska
> se ei vaadi aikaa vievää tutkimista joka sanan kohdalla.

Tässä vain on se ongelma, että työstä on varsin vähän hyötyä muuten kuin 
Voikon perusversiota varten. Ne, jotka haluavat Voikosta karsitun version 
(muistitilan rajoitukset tms.) tai jotka käyttäisivät samaa sanastoa vaikkapa 
puheentunnistusohjelmassa joutuisivat käymään sanaston uudelleen läpi ja 
tekemään samankaltaiset arviot omaa sovellustaan varten erikseen. 
Yleisyysluokitusta käytetään Voikon perusversiossakin korjausehdotusten 
laadun parantamiseen todennäköisesti vielä tämän vuoden puolella.

> Abstraktimpi 
> näkökulma olisi se, että laittaa sanoille suuren määrän laadullisiin
> ominaisuuteen liittyviä lippuja ja kone niiden perusteella tietyllä
> logiikalla muodostaa päätöksen, tuleeko sana oikoluvun perussanastoon.
> Yksityiskohtaiset liput ovat hankalia, kun pitää pysähtyä tutkimaan
> asiaa (ja harrastuspohjalta ei päästä kovin päteviin tuloksiin).

Pakko ei ole pysähtyä, voi myös laittaa lipun "Ei kuulu oikolukusanastoon" ja 
antaa muiden myöhemmin korvata sen yksityiskohtaisemmalla tiedolla.

Harri



More information about the devel mailing list