[voikko] Piki-sana
Harri Pitkänen
hatapitk at iki.fi
Tue Feb 11 18:15:52 EET 2014
On Tuesday 11 February 2014 05:44:07 Hannu Väisänen wrote:
> Voisiko asian korjata helpommin niin, että merkkijonon "piki" lisää
> etuliitteeksi? Tällöin kai tunnistettaisiin kaikki aiemmin tunnistetut
> piki-alkuiset sanat, mutta ei yhtään pien-alkuista sanaa. "Pien" on jo
> etuliitteenä.
Tietysti tämä olisi helpompaa ja periaatteessa mahdollinen ratkaisu joissain
sellaisissa tapauksissa, joissa rajoitettava sana on hyvin yleinen yhdyssanan
osa. Mutta "piki" on kuitenkin sen verran harvinainen sana, että
etuliitteenäkin siitä olisi ollut enemmän haittaa kuin hyötyä.
Jos meillä olisi olemassa mekanismi estää vain genetiivimuotojen käyttö
yhdyssanoissa, olisin saattanut käyttää sitä tässä omaa työtä vähentääkseni.
Mutta tätä mekanismia ei vielä ole (harkitsen kyllä vakavasti sen
toteuttamista).
Huomatkaa nyt sekin, että näitä yhdyssanoja rajoittavia lippuja ei tarvitse
välttämättä huomioida. Tai ne voi huomioida vain painokerrointa heikentävästi
etsittäessä todennäköisintä tulkintaa tai järjestettäessä hakukoneen antamia
hakutuloksia. Paras ratkaisu on täysin sovelluksesta riippuva. Voikon
perussanastossa nykyisellä toteutuksella liput tulkitaan kuten ne on nimetty
(eli sanaa ei sallita yhdyssanan alkuosana). Tämä on järkeväksi osoittautunut
ratkaisu tyypillisimmissä Voikon käyttötarkoituksissa, jotka ovat viimeisen
kymmenen vuoden aikana kirjoitetun tekstin oikoluku ja tavutus sekä haku
vastaavanikäisistä tekstipankeista. Mutta koodi on vapaasti saatavilla ja
muokattavissa, ja sitä on syytäkin hiukan mukauttaa, jos käyttötarkoitus sitä
vaatii.
Harri
More information about the voikko
mailing list