[voikko-devel] Sanojen poisto oikoluvun purussanastosta

Teemu Likonen tlikonen at iki.fi
Sun Jan 7 19:52:12 EET 2007


Hannu Väisänen kirjoitti:

> Olisi hyvä, jos oikoluvusta poistettavat sanat jätettäisiin
> Suomi-malagan Sukija-versioon esim. varustettuna lipulla
> tiedot: <ei_voikko>.

Kenties. Kommentoin itse näitä lippuja oikoluvun 
perussanastosta poistamiseksi. Ne ovat hieman outoja.

(Tai erityisalan sanastot ovat selkeitä: Jos sana on liian 
alakohtainen termi, ammatti- tai nörttislangia, lipulla se voidaan 
luokitella ja poistaa perussanastosta.)

Mutta... Joukahaisessa voisi käyttöliittymästä selkeästi laittaa omaan 
ryhmäänsä liput, jotka poistavat sanan perussanastosta. Erityisalojen 
lisäksi yksi yleisimmistä syistä on, että sana liittyy jotenkin 
kielivirheeseen. Se on joko indeksointia varten kirjoitusasultaan väärä 
(esim. "*asujamisto") tai sana on olemassa yhdyssanavirheen 
mahdollistamiseksi, vaikka se ei olisi itsenäinen sana. Nyt on olemassa 
liput "tyypillinen kirjoitusvirhe" ja "ei kuulu oikolukusanastoon", ja 
olen niitä kielivirhetilanteissa käyttänyt. Toisaalta on myös 
lippu "virheellinen sana". En oikein tajua lippujen merkityksiä ja 
eroja.

Joskus sanat ovat harvinaisia ja mahdollisesti oikoluvun kannalta 
enemmän haitaksi kuin hyödyksi. Tarkempaa yleisyysluokitusta ei voi 
tehdä ilman kunnon korpuksia ja sanakohtaista tutkimusta (vie paljon 
aikaa). Mieluummin ajattelisi perussanaston näkökulmasta vain joko - 
tai-periaatteella. Esimerkiksi sinänsä oikeille mutta harvinaisille tai 
mahdollisesti enemmän haitallisille sanoille jokin oma lippu sanan 
poistamiseksi oikoluvusta. On usein vaikea sanoa, "sekoittuuko se 
_helposti_ yleisempään sanaan".

Omia ehdotuksia lipuille, jotka poistavat sanan oikoluvun 
perussanastosta:
- kirjoitusvirhe tai muu kielivirhe
- mahdollisesti haitallinen oikoluvun kannalta (useita syitä: 
harvinainen ja muistuttaa tärkeämpää sanaa; ei kuulu nykykieleen)
- liian puhekielinen
- liian vieraskielinen
- erityisalat

Lisäksi tietysti sellaiset liput, jotka tekevät koko sanatietueen 
turhaksi:
- Koko sanatietue on kirjoitusvirheellinen ja joutaa kokonaan pois (ei 
tarvita edes indeksoinnissa).
- Sanatietue on turha, koska sana tunnistuu (riittävässä määrin) muuta 
kautta ("siirretty").

Kaiken kaikkiaan tämä näkökulma on konkreettinen: mukaan perussanastoon 
tai ei (+ syy). Tällainen näkökulma on käytännöllinen ja nopea, koska 
se ei vaadi aikaa vievää tutkimista joka sanan kohdalla. Abstraktimpi 
näkökulma olisi se, että laittaa sanoille suuren määrän laadullisiin 
ominaisuuteen liittyviä lippuja ja kone niiden perusteella tietyllä 
logiikalla muodostaa päätöksen, tuleeko sana oikoluvun perussanastoon. 
Yksityiskohtaiset liput ovat hankalia, kun pitää pysähtyä tutkimaan 
asiaa (ja harrastuspohjalta ei päästä kovin päteviin tuloksiin).

> Kunhan joululoma ei enää häiritse, voin
> palata Suomi-malagan pariin. (-:
>
> _______________________________________________
> devel mailing list
> devel at hunspell-fi.org
> http://hunspell-fi.org/mailman/listinfo/devel_hunspell-fi.org



More information about the devel mailing list