[voikko-devel] Sanojen poisto oikoluvun purussanastosta
Teemu Likonen
tlikonen at iki.fi
Sun Jan 7 19:52:12 EET 2007
Hannu Väisänen kirjoitti:
> Olisi hyvä, jos oikoluvusta poistettavat sanat jätettäisiin
> Suomi-malagan Sukija-versioon esim. varustettuna lipulla
> tiedot: <ei_voikko>.
Kenties. Kommentoin itse näitä lippuja oikoluvun
perussanastosta poistamiseksi. Ne ovat hieman outoja.
(Tai erityisalan sanastot ovat selkeitä: Jos sana on liian
alakohtainen termi, ammatti- tai nörttislangia, lipulla se voidaan
luokitella ja poistaa perussanastosta.)
Mutta... Joukahaisessa voisi käyttöliittymästä selkeästi laittaa omaan
ryhmäänsä liput, jotka poistavat sanan perussanastosta. Erityisalojen
lisäksi yksi yleisimmistä syistä on, että sana liittyy jotenkin
kielivirheeseen. Se on joko indeksointia varten kirjoitusasultaan väärä
(esim. "*asujamisto") tai sana on olemassa yhdyssanavirheen
mahdollistamiseksi, vaikka se ei olisi itsenäinen sana. Nyt on olemassa
liput "tyypillinen kirjoitusvirhe" ja "ei kuulu oikolukusanastoon", ja
olen niitä kielivirhetilanteissa käyttänyt. Toisaalta on myös
lippu "virheellinen sana". En oikein tajua lippujen merkityksiä ja
eroja.
Joskus sanat ovat harvinaisia ja mahdollisesti oikoluvun kannalta
enemmän haitaksi kuin hyödyksi. Tarkempaa yleisyysluokitusta ei voi
tehdä ilman kunnon korpuksia ja sanakohtaista tutkimusta (vie paljon
aikaa). Mieluummin ajattelisi perussanaston näkökulmasta vain joko -
tai-periaatteella. Esimerkiksi sinänsä oikeille mutta harvinaisille tai
mahdollisesti enemmän haitallisille sanoille jokin oma lippu sanan
poistamiseksi oikoluvusta. On usein vaikea sanoa, "sekoittuuko se
_helposti_ yleisempään sanaan".
Omia ehdotuksia lipuille, jotka poistavat sanan oikoluvun
perussanastosta:
- kirjoitusvirhe tai muu kielivirhe
- mahdollisesti haitallinen oikoluvun kannalta (useita syitä:
harvinainen ja muistuttaa tärkeämpää sanaa; ei kuulu nykykieleen)
- liian puhekielinen
- liian vieraskielinen
- erityisalat
Lisäksi tietysti sellaiset liput, jotka tekevät koko sanatietueen
turhaksi:
- Koko sanatietue on kirjoitusvirheellinen ja joutaa kokonaan pois (ei
tarvita edes indeksoinnissa).
- Sanatietue on turha, koska sana tunnistuu (riittävässä määrin) muuta
kautta ("siirretty").
Kaiken kaikkiaan tämä näkökulma on konkreettinen: mukaan perussanastoon
tai ei (+ syy). Tällainen näkökulma on käytännöllinen ja nopea, koska
se ei vaadi aikaa vievää tutkimista joka sanan kohdalla. Abstraktimpi
näkökulma olisi se, että laittaa sanoille suuren määrän laadullisiin
ominaisuuteen liittyviä lippuja ja kone niiden perusteella tietyllä
logiikalla muodostaa päätöksen, tuleeko sana oikoluvun perussanastoon.
Yksityiskohtaiset liput ovat hankalia, kun pitää pysähtyä tutkimaan
asiaa (ja harrastuspohjalta ei päästä kovin päteviin tuloksiin).
> Kunhan joululoma ei enää häiritse, voin
> palata Suomi-malagan pariin. (-:
>
> _______________________________________________
> devel mailing list
> devel at hunspell-fi.org
> http://hunspell-fi.org/mailman/listinfo/devel_hunspell-fi.org
More information about the devel
mailing list