[voikko-devel] Kotuksen sanalista julkaistu
Teemu Likonen
tlikonen at iki.fi
Fri Dec 15 19:33:55 EET 2006
Harri Pitkänen kirjoitti:
> Eli joukossa on sanoja, jotka ilman muuta kuuluisivat
> oikolukusanastoon, mutta myös aika paljon tavaraa jota sinne ei ehkä
> kannata laittaakaan. Ja toinen melko selvä asia tästä testistä on se,
> että tämä myyttinen 100000 sanan Soikko-sanasto ei todellakaan ole
> välttämättä sen suurempi kuin Voikon nykyinen sanasto. Tunnistihan
> Voikko noista Kotuksen sanoista peräti 81706 kappaletta vaikka
> muodollisesti Voikon sanasto on vasta noin 25000 sanan suuruinen.
> Automaattijohdokset ovat tehokas työkalu.
Minä en ole enää kesän jälkeen pitänyt tuota Soikon 100 000 sanan
sanastoa verrannollisena Voikon ja SMV:n sanatietueiden määrään. Pasi
Ryhänen on laskenut johdokset sanoiksi, vaikka ne eivät olisi edes
leksikaalistuneet.
Mutta, mahtavaa! Kotuksen sanaston käyttöönoton teknisissä kysymyksissä
en paljon osaa auttaa, mutta ainakin olisi toivottavaa, että uusia
sanoja ei lisätä niin, että nykyisen sanaston siivoaminen merkittävästi
vaikeutuu. On huomattu, että nykyisessä Voikon sanastossa on oikoluvun
kannalta hieman siivottavaa: arkikieltä, slangia, tarkoituksella vääriä
muotoja tai muuten haitallisia sanoja.
Myös Kotuksen sanastossa on slangia ja arkikieltä (taitaa olla
merkitty). Kielitoimiston sanakirjaa jonkin verran käytettyäni
sanoisin, että slangisanat voisi merkitä suoraan puhekielisiksi ja
siten poistaa oikoluvun perussanastosta. Arkikielisiksi merkityissä
joutuu ehkä käyttämään omaa harkintaa.
Loisto homma, todellakin.
More information about the devel
mailing list