[voikko-devel] Suomi-malagan "versio 0.9.8" SourceForgessa
Hannu Väisänen
hvaisane at joyx.joensuu.fi
Thu Jan 11 09:34:35 EET 2007
Muutokset, joiden piti tulla versioon 0.9.8 ovat nyt SourceForgessa.
Ne voi imuroida itselleen komennolla
svn co https://svn.sourceforge.net/svnroot/voikko/branches/suomimalaga/original
Tämän jälkeen rupean laittamaan siihen Harrin ehdottamia muutoksia.
Suurin muutos on tiedostoon suomi.all lisätty tavutusalgoritmi. Sitä
ei vielä käytetä mihinkään, mutta olen ajatellut käyttää sitä
yleisimpien kirjoitusvirheiden tunnistamiseen, niin että niitä ei
tarvitse laittaa sanastoon. Esimerkiksi: joitakin kolmi- tai
useampitavuisia ääntiö/vokaali + inen-loppuisia laatusanoja on
kirjoitettu wanhoissa teksteissä i:ttöminä (*keltanen, *punanen).
Ehkä sitä voi käyttää myös wanhojen taivutuskaavojen generoitiin.
Esim. jos kolmi- tai useampitavuinen sana taipuu Kotuksen sanalistassa
kuten tatti (eli risti), se taipuu Sukija-versiossa kuten salaatti
(paperi). Tällä tavalla tunnistetaan varmasti paljon taivutusmuotoja
sanoissa, joihin ne eivät kuulu vanhankaan taivutuksen mukaan (muodot
papereiden, papereitten, papereita), mutta virheitä tulee myös, jos
yritän ylläpitää vanhoja taivutuksia käsipelillä.
More information about the devel
mailing list