[voikko] muutamia huomioita Sukijasta

Tuomas Salo tuomas.salo at iki.fi
Mon Sep 5 23:22:04 EEST 2011


Hei!

Voikon ja Sukijan suhde alkaa nyt lopulta hahmottua minullekin kunnolla. Kommentoin vielä pariin kohtaan alle.

>> mutta tästä ei liene niin paljon haittaa hauissa, sikäli kun myös
>> hakutermit palautetaan perusmuotoon.
> 
> Ei ole hyvä idea, sillä yhden sanan perusmuoto voi olla toisen sanan
> taivutusmuoto: alusta -> alusta, alustaa, alku, alunen, alus.

Hups, en olekaan syventynyt ihan tarpeeksi suomen kaltaisen kielen indeksointiin ja hakuihin liittyvään teoriaan - tai sovelluksiin, kuten Nutchiin. Nyt kun mietin tarkemmin, niin arvelen, että indeksointi toimiikin tietysti niin, että Sukija (vai pitäisikö sanoa malaga-fi) palauttaa hakumoottorille löytyneiden sanojen id:t eikä niinkään itse merkkijonoja perusmuodoista. Samoin sitten hakuvaiheessa hakulausekkeen sanat palautetaan id-arvoiksi eikä perusmuodoiksi. Jotenkin näin ehkä?

Jos jollakulla on hyviä linkkejä aiheeseen liittyen, ahmisin tietoutta mielelläni. Ei tarvitse kysellä niin paljon tyhmiä kysymyksiä. :)
 
>> Outoja tunnistuksia:
>> - hautausma (<hautausmaa)
>> - kaarilassa (<kaarilassa. Kaarila on paikannimi)
> 
> hauta+usma ja kaari+lassa
> 
> Sanat usma ja lassa ovat sanastossa.

No niin, löytyiväthän ne Joukahaisesta. Sori.

>> - "parin" tunnistuu edelleen parka-sanan muodoksi
> 
> Parka on sanastossa sekä nimi että nimi_laatusana, ja parin on
> parka-laatusanan muoto (parka, parempi, parin).

Mun mielestä parka-adjektiivilla ei voi koskaan olla vertailumuotoja. Tämähän on jo Voikon puolelle korjattukin.

>> - puistoti < puistotien
> 
> Luova yhdyssana
> 
> pu    is     toti   en (sijapääte)
> puu + inen + toti + en
> 
> Analyysin tulokset saa Malagassa esitettyä graafisesti komennolla tree:
> 
> malaga> ma puistotien
> malaga> tree
> 

Juu, hahmotinkin mistä nämä kummajaiset koostuvat. :) Pohdin vain, olisiko järkevää nostaa jotain lippuja, joilla esim. puis- ei olisi järkevä etuliite. Mutta kysymys ei taida olla kauhean olennainen, koska oikeatkin muodot kuitenkin tunnistuvat. Kuten noissa muunkin muotoisissa yhdyssanoissa, saatu hyöty olisi varmaankin vaivaan nähden onnettoman pieni.

>> Ja taas luovia yhdyssanoja, joille ei enimmäkseen voine mitään, eikä
>> varsinaisesti tarvikaan:
> 
> Tällaiset sanat pitäisi laittaa kieltolistalle jokainen erikseen, ja
> se hidastaisi Sukijan toimintaa liikaa.

Siinä ei tosiaan liene muutenkaan järkeä, koska noita on lähes loputtomasti.


T


-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.puimula.org/pipermail/voikko/attachments/20110905/e097aa22/attachment.html>


More information about the voikko mailing list