[voikko-devel] Suomi-malagan "versio 0.9.8" SourceForgessa

Hannu Väisänen hvaisane at joyx.joensuu.fi
Thu Jan 11 09:34:35 EET 2007


Muutokset, joiden piti tulla versioon 0.9.8 ovat nyt SourceForgessa.
Ne voi imuroida itselleen komennolla

svn co https://svn.sourceforge.net/svnroot/voikko/branches/suomimalaga/original

Tämän jälkeen rupean laittamaan siihen Harrin ehdottamia muutoksia.


Suurin muutos on tiedostoon suomi.all lisätty tavutusalgoritmi. Sitä
ei vielä käytetä mihinkään, mutta olen ajatellut käyttää sitä
yleisimpien kirjoitusvirheiden tunnistamiseen, niin että niitä ei
tarvitse laittaa sanastoon. Esimerkiksi: joitakin kolmi- tai
useampitavuisia ääntiö/vokaali + inen-loppuisia laatusanoja on
kirjoitettu wanhoissa teksteissä i:ttöminä (*keltanen, *punanen).

Ehkä sitä voi käyttää myös wanhojen taivutuskaavojen generoitiin.
Esim. jos kolmi- tai useampitavuinen sana taipuu Kotuksen sanalistassa
kuten tatti (eli risti), se taipuu Sukija-versiossa kuten salaatti
(paperi). Tällä tavalla tunnistetaan varmasti paljon taivutusmuotoja
sanoissa, joihin ne eivät kuulu vanhankaan taivutuksen mukaan (muodot
papereiden, papereitten, papereita), mutta virheitä tulee myös, jos
yritän ylläpitää vanhoja taivutuksia käsipelillä.



More information about the devel mailing list