[voikko-devel] Sanojen poisto oikoluvun perussanastosta

Harri Pitkänen hatapitk at cc.jyu.fi
Mon Jan 8 20:03:45 EET 2007


On Monday 08 January 2007 15:36, Teemu Likonen wrote:
> Ilmaisu "tyypillinen kirjoitusvirhe" kun viittaa ensisijaisesti
> kirjoittaessa tulleeseen virheeseen. Kuinka arvioida, onko
> virhe "tyypillinen"? Nimitys "kielivirhe" tai "oikeinkirjoituksen
> vastainen" on kattavampi ja selkeämpi.

Lippu on nyt nimetty uudelleen SVN:ssä olevassa dokumentaatiossa 
nimelle "tyypillinen kielivirhe". Nimeän lipun Joukahaisessa huomenna. 
Lisäksi poistin lippujen selityksissä olleet Voikon sanastoon liittyneet 
kommentit, ja kokosin ne kaikki tiedoston sanaston_kehittaminen.html loppuun 
omaan kappaleeseensa. Näin tämä ehkä on selvempää, ja parempi myös siinä 
mielessä että niiden, jotka mahdollisesti joskus kehittävät sanastoa eivätkä 
ole kiinnostuneita Voikosta, ei tarvitse tietää mitään siitä miten Voikon 
sanasto kootaan.

> Sana "kattavampi" ei muuten tunnistu, eli kattaa-verbin partisiippien
> vertailumuodot jäävät pois. Samoin näyttäisi olevan muillakin sanoilla.

Tämä liittyy Suomi-malagan versiosta 0.9.7 otettuihin muutoksiin. Tällaisia 
bugeja on syntynyt paljon: "kattavampi" tunnistui oikein Voikon versiossa 1.2 
ja tunnistuu myös Suomi-malagan versiolla 0.9.7, mutta niiden yhdistelmä on 
valitettavasti varsin ongelmallinen... Korjasin tämän nyt, mutta tapaus oli 
ehkä kymmenes tämäntyyppinen viimeisen parin viikon aikana eikä varmasti jää 
viimeiseksi.

> > Tästä olen eri mieltä. Käytännön sovellusten kannalta hyödyllisen
> > yleisyysluokituksen voi (ainakin silloin kun tietää sanan
> > merkityksen) tehdä ilman mitään lähdemateriaaleja muutaman sekunnin
> > pohdinnan jälkeen. On esimerkiksi helppo sanoa, että sana "valo" on
> > yleisempi kuin "salo", eikä oikolukuohjelmassa tarvita tarkempaa
> > tietoa. Se, että nykyinen yleisyysluokitus on kymmenportainen ei
> > tarkoita sitä, että sanoja tarvitsisi, tai olisi edes mahdollista,
> > asettaa täsmällisesti oikeaan luokkaan. Likimääräinen arvo on
> > käytännössä riittävä. Tein asteikon tarkemmaksi vain siksi, ettei
> > sitä tarvitse myöhemmin alkaa muuttamaan jos joku oikeasti haluaa
> > ryhtyä tekemään korpustutkimusta sanojen yleisyyden määrittämiseksi.
>
> Ok, ehkä sitten ei ole ongelmaa. Kahden sanan keskinäinen vertailu on
> varsin helppoa mutta suuren sanamäärän yleisyysluokittelu vaatii jo
> absoluuttisen vertailukohdan. Siinä ei voi tutkia esimerkiksi Googlella
> vain yhtä taivutusmuotoja, koska eri sanat esiintyvät merkityksen ja
> syntaksin vuoksi eri taivutusmuodoissa. Jokin sana on vain harvoin
> perusmuodossaan, jokin lähes pelkästään objektin sijoissa jne.
> Sivistyssanojen kohdalla on sekin, että niitä löytyy perusmuodossaan
> erilaisista netin sanakirjoista. Perusmuotojen vertailu ei siis anna
> sanan todellisesta käytöstä luotettavaa tietoa (kuten ei yleensäkään).
> Sanakirjojen kirjoittaminen on kyllä sekin "todellista käyttöä". :)
>
> Mutta mutta, jos suurin piirtein ja sinnepäin -arvio on riittävä, niin
> ei ilmeisesti hätää.

Aivan. Lisäsin tästä maininnan ohjeeseenkin.

Harri



More information about the devel mailing list