[voikko-devel] Esi-isä , kirkko-isä , kiihkoisänmaallinen (oli esi-isillä )

Harri Pitkänen hatapitk at cc.jyu.fi
Thu Feb 8 12:49:51 EET 2007


On Thursday 08 February 2007 10:10, Hannu Väisänen wrote:
> Meni lähes oikein. (-: Sukija-versiossa täytyy hyväksyä yhdysviiva
> myös sellaissa sanoissa, joihin se ei kuulu. Korjasin asian niin, että
> vaikka sanalla on lippu ei_ysj, se voi olla yhdyssanan jälkiosana, jos
> sen edellä on yhdysviiva (kirkko-isä hyväksytään mutta eri-ikäisyys ei
> ole eri-ikä+isyys). Nyt kuitenkin esi-isä -tyyppiset sanat tunnistuvat
> kahdesti. Tämähän ei ole suuri ongelma, mutta original-versiossa olen
> hoitanut asian lisäämällä esi-isä -tyypin sanoihin lipun ei_sukija.
> Kotuksen sanastossa niitä taitaa olla vain neljä: esi-isä, koti-isä,
> oppi-isä ja rippi-isä. Voiko näille sanoille lisätä lipun ei_sukija
> myös Joukahaisen sanastoon? Kuka lisää? Minä vai Joku Muu?

Voi lisätä, mutta sitä varten sanat pitää erottaa erillisiksi tietueiksi. Voit 
tehdä sen itse jos haluat, mutta mietitään ensin onko tähän parempia 
ratkaisuja.

> Huomasin myös, että isä-korjauksen jälkeen sana isänmaallinen ei
> tunnistu (ainakaan Sukija-versiossa) yhdyssanan jälkiosana (esim.
> kiihkoisänmaallinen). Korjasin asian lisäämällä sanan
> ''isänmaallinen'' sanastoon varustettuna lipulla ysj (voi olla vain
> yhdyssanan jälkiosana).

Huomasin eilen saman asian ja lisäsin sanan "isänmaallinen" Joukahaiseen. 
Mutta ilman ysj-lippua, koska "isänmaallinen" on oikein myös itsenäisenä 
sanana.

Tämä moneen kertaan tunnistuvien sanojen ongelma on sellainen, johon ehkä 
kannattaisi miettiä jotain automaattista ratkaisua. Sanaston kehittäjien 
kannalta on hankalaa, mikäli sanoja lisättäessä tai muokattaessa on 
huomioitava mahdolliset päällekkäisyydet muiden sanojen kanssa. Voikossa 
päällekkäisyydet eivät aiheuta muita kuin lieviä suorituskykyongelmia, joista 
ei toistaiseksi ole ollut tarvetta paljon välittää. Onko tilanne Sukijassa 
pahempi, toisin sanoen onko haitallista, että "esi-isä" indeksoidaan myös 
erillisenä sanana eikä ainoastaan sanan osina?

Päällekkäisyyksiä tulee jatkossa varmasti vain enemmän, ainakin sitten jos 
alan rakentaa synonyymisanastoa Joukahaisen avulla. Itse olin ajatellut 
tuossa vaiheessa ratkaista asian poistamalla turhat tietueet automaattisesti 
SMV:n käännösvaiheessa. Tämä ei ole ihan yksinkertaista, mutta ei luultavasti 
kohtuuttoman vaikeaakaan niin kauan kun ei ole tarvetta päästä täydellisesti 
eroon kaikista päällekkäisyyksistä. Uskoisin, että tämä ohjelmointivaiva 
kannattaa nähdä jottei sanaston kehittämisestä tule kohtuuttoman 
monimutkaista.

Harri



More information about the devel mailing list