Re: [hunspell-fi-devel] Perusmuodossa olevien sanojen kerääminen

Jori Mantysalo jori at cs.uta.fi
Fri Nov 4 14:17:52 EET 2005


On Sun, 30 Oct 2005, Reijo Tomperi wrote:

> [ CC Jorille taas, ilmoittele jos haluat kopioiden loppuvan. ]

Lisäsin itseni tuolle listalle.

Eli pöö kaikille. Olen Jori Mäntysalo, ja naputtelin Hunspellin
WWW-liittymän nopeana sormiharjoituksena kun aihe kiinnosti.
Kielitieteilijä en ole, enkä varsinaisesti osaa Python-kieltä. Sikäli tämä
liittyy työhönikin, että luonnollisen kielen käsittely liittyy joihin
työpaikallani (Tampereen yliop. / TKT / TAUCHI-yksikkö) tehtäviin
tutkimuksiin. Enemmän täällä kyllä väkerretään puhekäyttöliittymien
parissa.

En lupaa mitään erityistä osallistumista tähän projektiin, mutta seuraan
kiinnostuksella.

Ja toistan tässä kaikille erään ehdotukseni: tehdään WWW-sivun
oikolukuautomaatti ja siihen mahdollisuus lisätä sanoja. Parhaimmillaan
homma toimisi käyttäjälle hyvin helposti. Syötä 'http://www.foo.example',
kone vastaa "sanat omenat ja kissatt ovat virheitä", jossa kunkin sanan
perässä on tekstikenttä sanan perusmuotoa varten ja nappi. Käyttäjä
kirjoittaa 'omena' ja painaa nappia. Kone vastaa vaikka "Valitse oikea
taivutus", vaihtoehtoima esim. 'omena:omenain' ja 'omena:omenien', ja
käyttäjä klikkaa oikean vaihtoehdon kohdalta.

Tuo edellyttäisi ohjelmaa joka katsoisi sanan muotoa ja loisi siitä
mahdolliset taivutusmuodot, valiten sellaiset jotka riittävät varmistamaan
oikean taivutusluokan.

Tämä luonnollisesti toimii vasta sitten, kun sanasto on niin laaja että
tavanomaisilta sivuilta löytyy vain muutamia tunnistamattomia sanoja.
Joka tapauksessa sanoja saadaan varmasti paremmin, jos niiden lisääminen
yhdistetään johonkin lisääjää hyödyttävään.

-- 
Jori Mäntysalo
Laboratorioinsinööri
TAUCHI / Tietojenkäsittelytieteiden laitos / Tampereen yliopisto
Puh. 03-35518893, email jori at cs.uta.fi, kotisivu http://www.uta.fi/%7ejm58660/



More information about the devel mailing list