[voikko] Piki-sana

Harri Pitkänen hatapitk at iki.fi
Tue Feb 11 18:15:52 EET 2014


On Tuesday 11 February 2014 05:44:07 Hannu Väisänen wrote:
> Voisiko asian korjata helpommin niin, että merkkijonon "piki" lisää
> etuliitteeksi? Tällöin kai tunnistettaisiin kaikki aiemmin tunnistetut
> piki-alkuiset sanat, mutta ei yhtään pien-alkuista sanaa. "Pien" on jo
> etuliitteenä.

Tietysti tämä olisi helpompaa ja periaatteessa mahdollinen ratkaisu joissain 
sellaisissa tapauksissa, joissa rajoitettava sana on hyvin yleinen yhdyssanan 
osa. Mutta "piki" on kuitenkin sen verran harvinainen sana, että 
etuliitteenäkin siitä olisi ollut enemmän haittaa kuin hyötyä.

Jos meillä olisi olemassa mekanismi estää vain genetiivimuotojen käyttö 
yhdyssanoissa, olisin saattanut käyttää sitä tässä omaa työtä vähentääkseni. 
Mutta tätä mekanismia ei vielä ole (harkitsen kyllä vakavasti sen 
toteuttamista).

Huomatkaa nyt sekin, että näitä yhdyssanoja rajoittavia lippuja ei tarvitse 
välttämättä huomioida. Tai ne voi huomioida vain painokerrointa heikentävästi 
etsittäessä todennäköisintä tulkintaa tai järjestettäessä hakukoneen antamia 
hakutuloksia. Paras ratkaisu on täysin sovelluksesta riippuva. Voikon 
perussanastossa nykyisellä toteutuksella liput tulkitaan kuten ne on nimetty 
(eli sanaa ei sallita yhdyssanan alkuosana). Tämä on järkeväksi osoittautunut 
ratkaisu tyypillisimmissä Voikon käyttötarkoituksissa, jotka ovat viimeisen 
kymmenen vuoden aikana kirjoitetun tekstin oikoluku ja tavutus sekä haku 
vastaavanikäisistä tekstipankeista. Mutta koodi on vapaasti saatavilla ja 
muokattavissa, ja sitä on syytäkin hiukan mukauttaa, jos käyttötarkoitus sitä 
vaatii.

Harri


More information about the voikko mailing list