[voikko-devel] Esi-isä , kirkko-isä , kiihkoisänmaallinen (oli esi-isillä )

Hannu Väisänen hvaisane at joyx.joensuu.fi
Thu Feb 8 13:22:51 EET 2007


On Thu, Feb 08, 2007 at 12:49:51PM +0200, Harri Pitkänen wrote:
> Huomasin eilen saman asian ja lisäsin sanan "isänmaallinen" Joukahaiseen. 
> Mutta ilman ysj-lippua, koska "isänmaallinen" on oikein myös itsenäisenä 
> sanana.

Näin on, mutta ainakin Voikko-versiossa merkkijono "isänmaallinen"
tunnistetaan isä+n+maa+llinen eli jos sanassa "isänmaallinen" ei ole
lippua ysj, kiihkoisänmaallinen ja muut sellaiset sanat tunnistetaan
kahdesti.


> Onko tilanne Sukijassa 
> pahempi, toisin sanoen onko haitallista, että "esi-isä" indeksoidaan myös 
> erillisenä sanana eikä ainoastaan sanan osina?

Niin se pitääkin indeksoida myös erillisenä sanana.

Tämä kahteen tai useampaan kertaan tunnistuvien sanojen ongelma on
lähinnä vain esteettinen. Moneen kertaan tunnistuva sana näyttää
rumalta. (-: Tosin tällaisia sanoja on varmaan Sukija-versiossa
enemmän kuin Voikko-versiossa, koska yhdyssanojen tunnistuksen täytyy
olla vapaampaa, mutta suorituskykyyn vaikutus on niin pieni, että
sillä ei ole väliä.

Elikkä moneen kertaan tunnistuvien sanojen ongelma on tarkemmin
ajatellen niin pieni, että se voidaan unohtaa toistaiseksi. Jos siihen
tulee tarvetta palata myöhemmin, kaavailemasi automaattinen ratkaisu
(millainen se sitten onkaan) on parempi kuin jokaisen sanan tai
sanatyypin katsominen erikseen.


Olen päivittänyt original-version SourceForgeen.



More information about the devel mailing list