[voikko-devel] Sanojen poisto oikoluvun perussanastosta
Teemu Likonen
tlikonen at iki.fi
Mon Jan 8 15:36:52 EET 2007
Harri Pitkänen kirjoitti:
> > liput "tyypillinen kirjoitusvirhe" ja "ei kuulu oikolukusanastoon",
> > ja olen niitä kielivirhetilanteissa käyttänyt. Toisaalta on myös
> > lippu "virheellinen sana". En oikein tajua lippujen merkityksiä ja
> > eroja.
>
> Näiden kolmen lipun määritelmiä ja nimiä olisi kyllä varaa vähän
> yksinkertaistaa.
Ilmaisu "tyypillinen kirjoitusvirhe" kun viittaa ensisijaisesti
kirjoittaessa tulleeseen virheeseen. Kuinka arvioida, onko
virhe "tyypillinen"? Nimitys "kielivirhe" tai "oikeinkirjoituksen
vastainen" on kattavampi ja selkeämpi.
Sana "kattavampi" ei muuten tunnistu, eli kattaa-verbin partisiippien
vertailumuodot jäävät pois. Samoin näyttäisi olevan muillakin sanoilla.
> Tästä olen eri mieltä. Käytännön sovellusten kannalta hyödyllisen
> yleisyysluokituksen voi (ainakin silloin kun tietää sanan
> merkityksen) tehdä ilman mitään lähdemateriaaleja muutaman sekunnin
> pohdinnan jälkeen. On esimerkiksi helppo sanoa, että sana "valo" on
> yleisempi kuin "salo", eikä oikolukuohjelmassa tarvita tarkempaa
> tietoa. Se, että nykyinen yleisyysluokitus on kymmenportainen ei
> tarkoita sitä, että sanoja tarvitsisi, tai olisi edes mahdollista,
> asettaa täsmällisesti oikeaan luokkaan. Likimääräinen arvo on
> käytännössä riittävä. Tein asteikon tarkemmaksi vain siksi, ettei
> sitä tarvitse myöhemmin alkaa muuttamaan jos joku oikeasti haluaa
> ryhtyä tekemään korpustutkimusta sanojen yleisyyden määrittämiseksi.
Ok, ehkä sitten ei ole ongelmaa. Kahden sanan keskinäinen vertailu on
varsin helppoa mutta suuren sanamäärän yleisyysluokittelu vaatii jo
absoluuttisen vertailukohdan. Siinä ei voi tutkia esimerkiksi Googlella
vain yhtä taivutusmuotoja, koska eri sanat esiintyvät merkityksen ja
syntaksin vuoksi eri taivutusmuodoissa. Jokin sana on vain harvoin
perusmuodossaan, jokin lähes pelkästään objektin sijoissa jne.
Sivistyssanojen kohdalla on sekin, että niitä löytyy perusmuodossaan
erilaisista netin sanakirjoista. Perusmuotojen vertailu ei siis anna
sanan todellisesta käytöstä luotettavaa tietoa (kuten ei yleensäkään).
Sanakirjojen kirjoittaminen on kyllä sekin "todellista käyttöä". :)
Mutta mutta, jos suurin piirtein ja sinnepäin -arvio on riittävä, niin
ei ilmeisesti hätää.
More information about the devel
mailing list