[voikko-devel] Kotuksen sanalista julkaistu

Teemu Likonen tlikonen at iki.fi
Fri Dec 15 19:33:55 EET 2006


Harri Pitkänen kirjoitti:

> Eli joukossa on sanoja, jotka ilman muuta kuuluisivat
> oikolukusanastoon, mutta myös aika paljon tavaraa jota sinne ei ehkä
> kannata laittaakaan. Ja toinen melko selvä asia tästä testistä on se,
> että tämä myyttinen 100000 sanan Soikko-sanasto ei todellakaan ole
> välttämättä sen suurempi kuin Voikon nykyinen sanasto. Tunnistihan
> Voikko noista Kotuksen sanoista peräti 81706 kappaletta vaikka
> muodollisesti Voikon sanasto on vasta noin 25000 sanan suuruinen.
> Automaattijohdokset ovat tehokas työkalu.

Minä en ole enää kesän jälkeen pitänyt tuota Soikon 100 000 sanan 
sanastoa verrannollisena Voikon ja SMV:n sanatietueiden määrään. Pasi 
Ryhänen on laskenut johdokset sanoiksi, vaikka ne eivät olisi edes 
leksikaalistuneet.

Mutta, mahtavaa! Kotuksen sanaston käyttöönoton teknisissä kysymyksissä 
en paljon osaa auttaa, mutta ainakin olisi toivottavaa, että uusia 
sanoja ei lisätä niin, että nykyisen sanaston siivoaminen merkittävästi 
vaikeutuu. On huomattu, että nykyisessä Voikon sanastossa on oikoluvun 
kannalta hieman siivottavaa: arkikieltä, slangia, tarkoituksella vääriä 
muotoja tai muuten haitallisia sanoja.

Myös Kotuksen sanastossa on slangia ja arkikieltä (taitaa olla 
merkitty). Kielitoimiston sanakirjaa jonkin verran käytettyäni 
sanoisin, että slangisanat voisi merkitä suoraan puhekielisiksi ja 
siten poistaa oikoluvun perussanastosta. Arkikielisiksi merkityissä 
joutuu ehkä käyttämään omaa harkintaa.

Loisto homma, todellakin.



More information about the devel mailing list