[hunspell-fi-devel] Sanaston puutteita
Harri Pitkänen
hatapitk at cc.jyu.fi
Sun Jul 2 22:25:11 EEST 2006
On Sunday 02 July 2006 20:53, Teemu Likonen wrote:
> Voikkosin perjantain SVN-Suomi-Malagalla kasvatusalan tekstejä, jotka
> sisälsivät kuitenkin pääasiassa ihan tavallista nykyajan asiasuomea.
> Alla on lista tunnistamattomista sanoista. Luin myös keräämäni reilun
> 700 sanan kasvatustieteen sanaston, ja siitäkin Voikko tunnisti noin
> puolet. Tunnistamatta jäi alan lyhenteitä, tutkijoiden nimiä ja
> todellisia erikoissanoja. Niitä ei tietenkään tässä vaiheessa tarvitse
> pitää "vakavina puutteina". Täysin pöyristyttävää sen sijaan on se,
> että minun sukunimeä ei tunnisteta! :) No joo, tämä on tosi
> harvinainen.
Nimien (varsinkin sukunimien) kanssa on vielä paljon puutteita. Tämä johtuu
siitä, että Suomi-malagan indeksointiversio tunnisti ne johdoksina tai
yhdyssanoina, joten sen sanastossa ei itse asiassa ollut kovinkaan paljon
nimiä. Olen näitä lisäillyt viikonlopun aikana, mutta paljon vielä puuttuu,
Likonen mukaan lukien.
> Mutta vakavasti ottaen tuntuisi, että /-o(i)tta-/-verbeille pitäisi ehkä
> tehdä jotain. Nyt Voikko esimerkiksi hyväksyy sekä "kirjottaa"
> että "kirjoittaa".
>
> ...
Katsoin, että kaikki sanat jotka oli luokiteltu merkinnällä 'jatko:
<kirjoittaa>' (joita oli 205 kappaletta) näyttivät olevan kolmitavuisia,
joten lainaamaasi Suomen kieliopin katkelmaan nojaten poistin ko.
taivutuskaavasta nuo i-kirjaimettomat versiot. Tämän bugin (tai eihän tämä
indeksoinnissa edes ole bugi) pitäisi siis olla nyt korjattuna SVN:ssä
(r193). Huomasin itse asiassa tämän jo helmikuussa ('viivoitin'
vs. 'viivotin') mutta silloin en vielä ymmärtänyt mitään Malagan
toimintaperiaatteesta, ja asia oli päässyt unohtumaan.
Toinen vakavahko ongelma on 'siistiys' vs. 'siisteys'. Vain ensimmäinen
hyväksytään, vaikka jälkimmäinen on oikein. Tätä vaan ei ole ihan yhtä helppo
korjata, koska samalla tavalla luokitellut sanat käyttäytyvät tämän johdoksen
suhteen eri tavoilla, eli vaaditaan luokituksen manuaalista korjaamista mitä
emme 1.0 -versioon ehdi oikein tekemään.
> Ja sitten se tunnistamattomien sanojen lista:
>
> ...
Näistä aika monet näyttävät jo tunnistuvankin viimeisen parin päivän varrella
tehtyjen korjausten ansiosta. Joitakin on vielä jäljellä, laitan niitä
jonnekin muistiin.
Harri
More information about the devel
mailing list