[voikko-devel] toimimattomia lukusanoja

Harri Pitkänen hatapitk at cc.jyu.fi
Sat Nov 18 19:18:31 EET 2006


On Friday 17 November 2006 11:40, Hannu Väisänen wrote:
> On Thu, Nov 16, 2006 at 11:17:41PM +0200, Tero Kuparinen wrote:
> > Huomasin juuri, että jotkut lukusanat kuten "viisitoistatuhatta"
> > eikä "viisikymmentätuhatta" tunnistu kun taas "viisituhatta" toimii
> > oikein.
>
> Viisituhatta "tunnistuu" sen takia, että se on Suomi-malagan mielestä
> viisi + tuhka: tuhatta on joko osanto/partitiivi tai vajanto/abessiivi.
>
> Lukusanoista Suomi-malaga tunnistaa oikein vain 1-19, sata, tuhat,
> miljoona, miljardi, biljoona, triljoona. Ongelma on siinä, että
> lukusanoissa sanan kaikki osat taipuvat sijamuodoissa, toisin kuin
> yleensä yhdyssanossa: viiteenkymmeneentuhanteen.

Olen nyt rakentamassa kokonaan uutta lukusanojen jäsennyskoodia. Työ on vielä 
pahasti kesken, mutta koska muutoksia tarvitaan aika paljon, minun oli pakko 
tässä välissä tallentaa SVN:ään nykyinen tilanne. Yksinkertaistetusti voi 
sanoa, että nykyinen koodi tunnistaa lukusanat 0-99 perusmuodossaan, eikä 
lukusanojen ja muiden sanojen yhdistelmiä hyväksytä lainkaan.

Jos siis käytätte SVN-versioita, ei kannata ihmetellä jos lukusanat eivät 
tällä hetkellä näytä toimivan. Asia korjaantunee vähän kerrassaan, ja 
viimeistään Voikon 1.3 -versioon mennessä pitäisi kaiken toimia paremmin kuin 
ennen. En aio toistaiseksi pyrkiä lukusanojen täydelliseen validointiin, 
esimerkiksi "kaksisataasetisemänsataakolmekymmentä" varmaan hyväksytään 
valmiissa versiossa. Mutta lukusanojen taivutuksen sijamuodoissa pitäisi 
onnistua, ja niin että eri osien taivutusmuotojen vastaavuus myös 
tarkistetaan.

Luulisin, että tämän osan voi hyödyntää myös Sukija-versiossa, sielläkään 
tuskin olisi haittaa siitä että lukusanat tunnistuisivat laajemmin. Suurin 
osa uudesta koodista on irrallaan muusta, joten sen voi vaikka laittaa 
erilliseen tiedostoon.

Harri



More information about the devel mailing list