[voikko-devel] Sanojen poisto oikoluvun perussanastosta

Teemu Likonen tlikonen at iki.fi
Mon Jan 8 15:36:52 EET 2007


Harri Pitkänen kirjoitti:

> > liput "tyypillinen kirjoitusvirhe" ja "ei kuulu oikolukusanastoon",
> > ja olen niitä kielivirhetilanteissa käyttänyt. Toisaalta on myös
> > lippu "virheellinen sana". En oikein tajua lippujen merkityksiä ja
> > eroja.
>
> Näiden kolmen lipun määritelmiä ja nimiä olisi kyllä varaa vähän
> yksinkertaistaa.

Ilmaisu "tyypillinen kirjoitusvirhe" kun viittaa ensisijaisesti 
kirjoittaessa tulleeseen virheeseen. Kuinka arvioida, onko 
virhe "tyypillinen"? Nimitys "kielivirhe" tai "oikeinkirjoituksen 
vastainen" on kattavampi ja selkeämpi.

Sana "kattavampi" ei muuten tunnistu, eli kattaa-verbin partisiippien 
vertailumuodot jäävät pois. Samoin näyttäisi olevan muillakin sanoilla.

> Tästä olen eri mieltä. Käytännön sovellusten kannalta hyödyllisen
> yleisyysluokituksen voi (ainakin silloin kun tietää sanan
> merkityksen) tehdä ilman mitään lähdemateriaaleja muutaman sekunnin
> pohdinnan jälkeen. On esimerkiksi helppo sanoa, että sana "valo" on
> yleisempi kuin "salo", eikä oikolukuohjelmassa tarvita tarkempaa
> tietoa. Se, että nykyinen yleisyysluokitus on kymmenportainen ei
> tarkoita sitä, että sanoja tarvitsisi, tai olisi edes mahdollista,
> asettaa täsmällisesti oikeaan luokkaan. Likimääräinen arvo on
> käytännössä riittävä. Tein asteikon tarkemmaksi vain siksi, ettei
> sitä tarvitse myöhemmin alkaa muuttamaan jos joku oikeasti haluaa
> ryhtyä tekemään korpustutkimusta sanojen yleisyyden määrittämiseksi.

Ok, ehkä sitten ei ole ongelmaa. Kahden sanan keskinäinen vertailu on 
varsin helppoa mutta suuren sanamäärän yleisyysluokittelu vaatii jo 
absoluuttisen vertailukohdan. Siinä ei voi tutkia esimerkiksi Googlella 
vain yhtä taivutusmuotoja, koska eri sanat esiintyvät merkityksen ja 
syntaksin vuoksi eri taivutusmuodoissa. Jokin sana on vain harvoin 
perusmuodossaan, jokin lähes pelkästään objektin sijoissa jne. 
Sivistyssanojen kohdalla on sekin, että niitä löytyy perusmuodossaan 
erilaisista netin sanakirjoista. Perusmuotojen vertailu ei siis anna 
sanan todellisesta käytöstä luotettavaa tietoa (kuten ei yleensäkään). 
Sanakirjojen kirjoittaminen on kyllä sekin "todellista käyttöä". :)

Mutta mutta, jos suurin piirtein ja sinnepäin -arvio on riittävä, niin 
ei ilmeisesti hätää.



More information about the devel mailing list