[hunspell-fi-devel] Semanttinen informaatio ja johtaminen
Harri Pitkänen
hatapitk at cc.jyu.fi
Sun Nov 27 12:06:49 EET 2005
On Sunday 27 November 2005 11:35, Ville Nygrén wrote:
> Hei!
>
> Tuota johdoslistan tynkää katsoessa tuli mieleen sellainenkin
> asia kun semantiikan vaikutus sanojen johtamiseen.
>
> Yksinkertainen tapahan on hoitaa erottelu produktiivisiin ja
> ei-produktiiviin johtimiin lisäämällä jälkimmäisillä johdetut
> sanat suoraan sanastoon. Tämä tietenkin vaatii manuaalista
> työtä, mutta on varmaan hyvä tapa varmistua siitä ettei
> ohjelma tunnista vääränlaisia johdoksia.
>
> Toisaalta monessa tapauksessa on niin, että koodaamalla
> sanaan jotakin perusinformaatiota sen merkityksestä,
> voitaisiin nämäkin ei-produktiiviset johtimet tehdä
> produktiiviseksi: produktiivisuuden sanaluokan sisällä
> tilalle tulisi produktiivisuus tietyn suppeamman sanajoukon
> sisällä.
>
> Esimerkki: -(i)nen -johtimesta:
>
> vetinen
> sokerinen
> kalainen
>
> mutta:
>
> *kuppinen
> *takkinen
> *sormuksinen
>
> Ainakin äkkiseltään tulee mieleen että kysymys on
> siitä, voidaanko kantasanaa käyttää massaterminä
> (mass noun) vai ei. Joitakin sanoja voi käyttää
> kumpanakin (yksi vesi - paljon vettä), joitakin vain
> massatermeinä (*yksi kura - paljon kuraa) ja taas
> joitakin vain yksilötermeinä (yksi sormus - *paljon
> sormusta). Olisiko mahdollista koodata
> tämänkaltaista informaatiota sanastoon?
On se mahdollista, ja tällainen mekanismi on jo olemassa. Sanastotiedostossa
on taivutusluokan lisäksi erillinen parametrikenttä, johon tällaista
informaatiota voi lisätä. Toistaiseksi tuota kenttää on käytetty ainoastaan
poikkeavasti taipuvien sanojen kohdalla (siis siten, että taivutusluokka on
esim. subst-poikk ja parametrikenttä sisältää sanan taivutuksen Hunspellin
ymmärtämässä muodossa.) Ainoa paikka, johon tarvitaan muutoksia jos
tuollaista halutaan tehdä, on se skripti joka käsittelee Jarnon ja Reijon
lähettämiä sanalistoja. Siis jos löydät kaksi tai useampia johtimia jotka
ovat produktiivisia jonkun sanaluokan samassa (ei-triviaalissa) osajoukossa,
niin kerro asiasta, muotoillaan sitten jokin tapa ilmaista asia tuossa
parametrikentässä. Yksittäisiä johtimia varten tätä ei ehkä kannata tehdä,
sillä ei taida olla suurta eroa sillä, lisääkö yhden sanan erikseen vai
lisääkö parametrin johonkin olemassa olevaan sanaan. Tietysti tieteellisessä
käytössä voisi siitäkin olla hyötyä, siis niin että kaikista johdetuista
sanoista olisi tiedossa se mekanismi, jolla sana oli johdettu.
Harri
More information about the devel
mailing list