[voikko-devel] toimimattomia lukusanoja
Harri Pitkänen
hatapitk at cc.jyu.fi
Sat Nov 18 19:18:31 EET 2006
On Friday 17 November 2006 11:40, Hannu Väisänen wrote:
> On Thu, Nov 16, 2006 at 11:17:41PM +0200, Tero Kuparinen wrote:
> > Huomasin juuri, että jotkut lukusanat kuten "viisitoistatuhatta"
> > eikä "viisikymmentätuhatta" tunnistu kun taas "viisituhatta" toimii
> > oikein.
>
> Viisituhatta "tunnistuu" sen takia, että se on Suomi-malagan mielestä
> viisi + tuhka: tuhatta on joko osanto/partitiivi tai vajanto/abessiivi.
>
> Lukusanoista Suomi-malaga tunnistaa oikein vain 1-19, sata, tuhat,
> miljoona, miljardi, biljoona, triljoona. Ongelma on siinä, että
> lukusanoissa sanan kaikki osat taipuvat sijamuodoissa, toisin kuin
> yleensä yhdyssanossa: viiteenkymmeneentuhanteen.
Olen nyt rakentamassa kokonaan uutta lukusanojen jäsennyskoodia. Työ on vielä
pahasti kesken, mutta koska muutoksia tarvitaan aika paljon, minun oli pakko
tässä välissä tallentaa SVN:ään nykyinen tilanne. Yksinkertaistetusti voi
sanoa, että nykyinen koodi tunnistaa lukusanat 0-99 perusmuodossaan, eikä
lukusanojen ja muiden sanojen yhdistelmiä hyväksytä lainkaan.
Jos siis käytätte SVN-versioita, ei kannata ihmetellä jos lukusanat eivät
tällä hetkellä näytä toimivan. Asia korjaantunee vähän kerrassaan, ja
viimeistään Voikon 1.3 -versioon mennessä pitäisi kaiken toimia paremmin kuin
ennen. En aio toistaiseksi pyrkiä lukusanojen täydelliseen validointiin,
esimerkiksi "kaksisataasetisemänsataakolmekymmentä" varmaan hyväksytään
valmiissa versiossa. Mutta lukusanojen taivutuksen sijamuodoissa pitäisi
onnistua, ja niin että eri osien taivutusmuotojen vastaavuus myös
tarkistetaan.
Luulisin, että tämän osan voi hyödyntää myös Sukija-versiossa, sielläkään
tuskin olisi haittaa siitä että lukusanat tunnistuisivat laajemmin. Suurin
osa uudesta koodista on irrallaan muusta, joten sen voi vaikka laittaa
erilliseen tiedostoon.
Harri
More information about the devel
mailing list