<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Hei!<div><br></div><div>Voikon ja Sukijan suhde alkaa nyt lopulta hahmottua minullekin kunnolla. Kommentoin vielä pariin kohtaan alle.<br><div><br></div><div><div><blockquote type="cite"><div><blockquote type="cite">mutta tästä ei liene niin paljon haittaa hauissa, sikäli kun myös<br></blockquote><blockquote type="cite">hakutermit palautetaan perusmuotoon.<br></blockquote><br>Ei ole hyvä idea, sillä yhden sanan perusmuoto voi olla toisen sanan<br>taivutusmuoto: alusta -> alusta, alustaa, alku, alunen, alus.<br></div></blockquote><div><br></div><div>Hups, en olekaan syventynyt ihan tarpeeksi suomen kaltaisen kielen indeksointiin ja hakuihin liittyvään teoriaan - tai sovelluksiin, kuten Nutchiin. Nyt kun mietin tarkemmin, niin arvelen, että indeksointi toimiikin tietysti niin, että Sukija (vai pitäisikö sanoa malaga-fi) palauttaa hakumoottorille löytyneiden sanojen id:t eikä niinkään itse merkkijonoja perusmuodoista. Samoin sitten hakuvaiheessa hakulausekkeen sanat palautetaan id-arvoiksi eikä perusmuodoiksi. Jotenkin näin ehkä?</div><div><br></div><div>Jos jollakulla on hyviä linkkejä aiheeseen liittyen, ahmisin tietoutta mielelläni. Ei tarvitse kysellä niin paljon tyhmiä kysymyksiä. :)</div><div> </div><blockquote type="cite"><div><blockquote type="cite">Outoja tunnistuksia:<br></blockquote><blockquote type="cite">- hautausma (<hautausmaa)<br></blockquote><blockquote type="cite">- kaarilassa (<kaarilassa. Kaarila on paikannimi)<br></blockquote><br>hauta+usma ja kaari+lassa<br><br>Sanat usma ja lassa ovat sanastossa.<br></div></blockquote><div><br></div><div>No niin, löytyiväthän ne Joukahaisesta. Sori.</div><div><br></div><blockquote type="cite"><div><blockquote type="cite">- "parin" tunnistuu edelleen parka-sanan muodoksi<br></blockquote><br>Parka on sanastossa sekä nimi että nimi_laatusana, ja parin on<br>parka-laatusanan muoto (parka, parempi, parin).<br></div></blockquote><div><br></div><div>Mun mielestä parka-adjektiivilla ei voi koskaan olla vertailumuotoja. Tämähän on jo Voikon puolelle korjattukin.</div><div><br></div><blockquote type="cite"><div><blockquote type="cite">- puistoti < puistotien</blockquote><br>Luova yhdyssana<br><br>pu is toti en (sijapääte)<br>puu + inen + toti + en<br><br>Analyysin tulokset saa Malagassa esitettyä graafisesti komennolla tree:<br><br>malaga> ma puistotien<br>malaga> tree<br><br></div></blockquote><div><br></div>Juu, hahmotinkin mistä nämä kummajaiset koostuvat. :) Pohdin vain, olisiko järkevää nostaa jotain lippuja, joilla esim. puis- ei olisi järkevä etuliite. Mutta kysymys ei taida olla kauhean olennainen, koska oikeatkin muodot kuitenkin tunnistuvat. Kuten noissa muunkin muotoisissa yhdyssanoissa, saatu hyöty olisi varmaankin vaivaan nähden onnettoman pieni.</div><div><br><blockquote type="cite"><div><blockquote type="cite">Ja taas luovia yhdyssanoja, joille ei enimmäkseen voine mitään, eikä<br></blockquote><blockquote type="cite">varsinaisesti tarvikaan:<br></blockquote><br>Tällaiset sanat pitäisi laittaa kieltolistalle jokainen erikseen, ja<br>se hidastaisi Sukijan toimintaa liikaa.<br></div></blockquote><div><br></div><div>Siinä ei tosiaan liene muutenkaan järkeä, koska noita on lähes loputtomasti.</div></div><br></div></div><div><br></div><div>T</div><div><br></div><div><br></div></body></html>