[hunspell-fi-devel] Sanaston puutteita

Harri Pitkänen hatapitk at cc.jyu.fi
Sun Jul 2 22:25:11 EEST 2006


On Sunday 02 July 2006 20:53, Teemu Likonen wrote:
> Voikkosin perjantain SVN-Suomi-Malagalla kasvatusalan tekstejä, jotka
> sisälsivät kuitenkin pääasiassa ihan tavallista nykyajan asiasuomea.
> Alla on lista tunnistamattomista sanoista. Luin myös keräämäni reilun
> 700 sanan kasvatustieteen sanaston, ja siitäkin Voikko tunnisti noin
> puolet. Tunnistamatta jäi alan lyhenteitä, tutkijoiden nimiä ja
> todellisia erikoissanoja. Niitä ei tietenkään tässä vaiheessa tarvitse
> pitää "vakavina puutteina". Täysin pöyristyttävää sen sijaan on se,
> että minun sukunimeä ei tunnisteta! :) No joo, tämä on tosi
> harvinainen.

Nimien (varsinkin sukunimien) kanssa on vielä paljon puutteita. Tämä johtuu 
siitä, että Suomi-malagan indeksointiversio tunnisti ne johdoksina tai 
yhdyssanoina, joten sen sanastossa ei itse asiassa ollut kovinkaan paljon 
nimiä. Olen näitä lisäillyt viikonlopun aikana, mutta paljon vielä puuttuu, 
Likonen mukaan lukien.

> Mutta vakavasti ottaen tuntuisi, että /-o(i)tta-/-verbeille pitäisi ehkä
> tehdä jotain. Nyt Voikko esimerkiksi hyväksyy sekä "kirjottaa"
> että "kirjoittaa".
>
> ...

Katsoin, että kaikki sanat jotka oli luokiteltu merkinnällä 'jatko: 
<kirjoittaa>' (joita oli 205 kappaletta) näyttivät olevan kolmitavuisia, 
joten lainaamaasi Suomen kieliopin katkelmaan nojaten poistin ko. 
taivutuskaavasta nuo i-kirjaimettomat versiot. Tämän bugin (tai eihän tämä 
indeksoinnissa edes ole bugi) pitäisi siis olla nyt korjattuna SVN:ssä 
(r193). Huomasin itse asiassa tämän jo helmikuussa ('viivoitin' 
vs. 'viivotin') mutta silloin en vielä ymmärtänyt mitään Malagan 
toimintaperiaatteesta, ja asia oli päässyt unohtumaan.

Toinen vakavahko ongelma on 'siistiys' vs. 'siisteys'. Vain ensimmäinen 
hyväksytään, vaikka jälkimmäinen on oikein. Tätä vaan ei ole ihan yhtä helppo 
korjata, koska samalla tavalla luokitellut sanat käyttäytyvät tämän johdoksen 
suhteen eri tavoilla, eli vaaditaan luokituksen manuaalista korjaamista mitä 
emme 1.0 -versioon ehdi oikein tekemään.

> Ja sitten se tunnistamattomien sanojen lista:
>
> ...

Näistä aika monet näyttävät jo tunnistuvankin viimeisen parin päivän varrella 
tehtyjen korjausten ansiosta. Joitakin on vielä jäljellä, laitan niitä 
jonnekin muistiin.

Harri



More information about the devel mailing list