[hunspell-fi-devel] Semanttinen informaatio ja johtaminen

Harri Pitkänen hatapitk at cc.jyu.fi
Sun Nov 27 12:06:49 EET 2005


On Sunday 27 November 2005 11:35, Ville Nygrén wrote:
> Hei!
>
> Tuota johdoslistan tynkää katsoessa tuli mieleen sellainenkin
> asia kun semantiikan vaikutus sanojen johtamiseen.
>
> Yksinkertainen tapahan on hoitaa erottelu produktiivisiin ja
> ei-produktiiviin johtimiin lisäämällä jälkimmäisillä johdetut
> sanat suoraan sanastoon. Tämä tietenkin vaatii manuaalista
> työtä, mutta on varmaan hyvä tapa varmistua siitä ettei
> ohjelma tunnista vääränlaisia johdoksia.
>
> Toisaalta monessa tapauksessa on niin, että koodaamalla
> sanaan jotakin perusinformaatiota sen merkityksestä,
> voitaisiin nämäkin ei-produktiiviset johtimet tehdä
> produktiiviseksi: produktiivisuuden sanaluokan sisällä
> tilalle tulisi produktiivisuus tietyn suppeamman sanajoukon
> sisällä.
>
> Esimerkki: -(i)nen -johtimesta:
>
> vetinen
> sokerinen
> kalainen
>
> mutta:
>
> *kuppinen
> *takkinen
> *sormuksinen
>
> Ainakin äkkiseltään tulee mieleen että kysymys on
> siitä, voidaanko kantasanaa käyttää massaterminä
> (mass noun) vai ei. Joitakin sanoja voi käyttää
> kumpanakin (yksi vesi - paljon vettä), joitakin vain
> massatermeinä (*yksi kura - paljon kuraa) ja taas
> joitakin vain yksilötermeinä (yksi sormus - *paljon
> sormusta). Olisiko mahdollista koodata
> tämänkaltaista informaatiota sanastoon?

On se mahdollista, ja tällainen mekanismi on jo olemassa. Sanastotiedostossa 
on taivutusluokan lisäksi erillinen parametrikenttä, johon tällaista 
informaatiota voi lisätä. Toistaiseksi tuota kenttää on käytetty ainoastaan 
poikkeavasti taipuvien sanojen kohdalla (siis siten, että taivutusluokka on 
esim. subst-poikk ja parametrikenttä sisältää sanan taivutuksen Hunspellin 
ymmärtämässä muodossa.) Ainoa paikka, johon tarvitaan muutoksia jos 
tuollaista halutaan tehdä, on se skripti joka käsittelee Jarnon ja Reijon 
lähettämiä sanalistoja. Siis jos löydät kaksi tai useampia johtimia jotka 
ovat produktiivisia jonkun sanaluokan samassa (ei-triviaalissa) osajoukossa, 
niin kerro asiasta, muotoillaan sitten jokin tapa ilmaista asia tuossa 
parametrikentässä. Yksittäisiä johtimia varten tätä ei ehkä kannata tehdä, 
sillä ei taida olla suurta eroa sillä, lisääkö yhden sanan erikseen vai 
lisääkö parametrin johonkin olemassa olevaan sanaan. Tietysti tieteellisessä 
käytössä voisi siitäkin olla hyötyä, siis niin että kaikista johdetuista 
sanoista olisi tiedossa se mekanismi, jolla sana oli johdettu.

Harri



More information about the devel mailing list