[voikko-devel] Esi-isä , kirkko-isä , kiihkoisänmaallinen (oli esi-isillä )
Harri Pitkänen
hatapitk at cc.jyu.fi
Thu Feb 8 12:49:51 EET 2007
On Thursday 08 February 2007 10:10, Hannu Väisänen wrote:
> Meni lähes oikein. (-: Sukija-versiossa täytyy hyväksyä yhdysviiva
> myös sellaissa sanoissa, joihin se ei kuulu. Korjasin asian niin, että
> vaikka sanalla on lippu ei_ysj, se voi olla yhdyssanan jälkiosana, jos
> sen edellä on yhdysviiva (kirkko-isä hyväksytään mutta eri-ikäisyys ei
> ole eri-ikä+isyys). Nyt kuitenkin esi-isä -tyyppiset sanat tunnistuvat
> kahdesti. Tämähän ei ole suuri ongelma, mutta original-versiossa olen
> hoitanut asian lisäämällä esi-isä -tyypin sanoihin lipun ei_sukija.
> Kotuksen sanastossa niitä taitaa olla vain neljä: esi-isä, koti-isä,
> oppi-isä ja rippi-isä. Voiko näille sanoille lisätä lipun ei_sukija
> myös Joukahaisen sanastoon? Kuka lisää? Minä vai Joku Muu?
Voi lisätä, mutta sitä varten sanat pitää erottaa erillisiksi tietueiksi. Voit
tehdä sen itse jos haluat, mutta mietitään ensin onko tähän parempia
ratkaisuja.
> Huomasin myös, että isä-korjauksen jälkeen sana isänmaallinen ei
> tunnistu (ainakaan Sukija-versiossa) yhdyssanan jälkiosana (esim.
> kiihkoisänmaallinen). Korjasin asian lisäämällä sanan
> ''isänmaallinen'' sanastoon varustettuna lipulla ysj (voi olla vain
> yhdyssanan jälkiosana).
Huomasin eilen saman asian ja lisäsin sanan "isänmaallinen" Joukahaiseen.
Mutta ilman ysj-lippua, koska "isänmaallinen" on oikein myös itsenäisenä
sanana.
Tämä moneen kertaan tunnistuvien sanojen ongelma on sellainen, johon ehkä
kannattaisi miettiä jotain automaattista ratkaisua. Sanaston kehittäjien
kannalta on hankalaa, mikäli sanoja lisättäessä tai muokattaessa on
huomioitava mahdolliset päällekkäisyydet muiden sanojen kanssa. Voikossa
päällekkäisyydet eivät aiheuta muita kuin lieviä suorituskykyongelmia, joista
ei toistaiseksi ole ollut tarvetta paljon välittää. Onko tilanne Sukijassa
pahempi, toisin sanoen onko haitallista, että "esi-isä" indeksoidaan myös
erillisenä sanana eikä ainoastaan sanan osina?
Päällekkäisyyksiä tulee jatkossa varmasti vain enemmän, ainakin sitten jos
alan rakentaa synonyymisanastoa Joukahaisen avulla. Itse olin ajatellut
tuossa vaiheessa ratkaista asian poistamalla turhat tietueet automaattisesti
SMV:n käännösvaiheessa. Tämä ei ole ihan yksinkertaista, mutta ei luultavasti
kohtuuttoman vaikeaakaan niin kauan kun ei ole tarvetta päästä täydellisesti
eroon kaikista päällekkäisyyksistä. Uskoisin, että tämä ohjelmointivaiva
kannattaa nähdä jottei sanaston kehittämisestä tule kohtuuttoman
monimutkaista.
Harri
More information about the devel
mailing list