<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div><br></div><div>Hei,</div><div><br></div><div>sain Sukijan päivitettyä (kiitokset Harri), ja tutkiskelin taas hieman sen käyttöä sanojen yleisyysanalyysiin sekä vapaasanahakuihin. Tässä muutamia huomioita, svn-versiosta siis. Käytin syötteenä suomenkielisestä Wikipediasta muutamaa sivua, joista palautin sanoja perusmuotoon. Tutkailin sitten lähinnä ei-löytyneitä sanoja ja myös sellaisia, joista löytyi useampi kuin yksi muoto.</div><div><br></div><div>Noin yleisesti Sukija näyttäisi tuottavan tosi laadukkaita palautuksia. Täsmällisyyttä parantaisi merkittävästi varmaankin vasta lauserakenteiden analysointi, jolloin useammasta mahdollisesta perusmuodosta voitaisiin lähes aina valita yksi oikea lauseyhteyden nojalla, samoin eritellä paremmin yleis- ja erisnimiä.</div><div><br></div><div>Jos mulla on aikaa, voisin pistää Sukijan läpi koneellisesti isommankin määrän esim. Wikipedia-materiaalia ja tutkia yleisimpiä hylättyjä.</div><div><br></div><div>Onkohan paljonkin sanoja, jotka Sukija kertoo perusmuodoiksi mutta joita Voikko ei tunnista lainkaan? Mistä tämä johtuu - ovatko sanastot (yhä?) jotenkin niin erilliset? Olisiko hyötyä jopa syöttää Sukijan suoltamia perusmuotoja Voikolle ja etsiä ei-tunnistettuja?</div><div><br></div><div><br></div><div>Muutamia puuttuvia sanoja:</div><div><br></div><div><div>- ict-ala</div><div>- inkerinsuomalainen</div></div><div>- pähkinäinen</div><div><div>- pääpiirteittäinen (onko tarvettakaan?)</div></div><div>- Schengen-alue</div><div><br></div><div>- Benin</div><div>- Benelux-maat</div><div>- Kazakstan (mutta "Kazahstan" löytyy)</div><div><br></div><div>- Bergen</div><div>- Bratislava</div><div>- Bukarest</div><div>- Göteborg</div><div>- yms.</div><div><br></div><div>- Wuolijoki (harvinainen mutta tunnettu sukunimi)</div><div><br></div><div><div><br></div></div><div>Lisäksi "Ison-Britannian" palautuu (vain) muotoon "Ison-Britannia", "Isoa-Britanniaa" muotoon "Isoa-Britannia" jne., minkä näkisin haittaavan hakusovelluksia. Luultavasti muitakin esimerkkejä löytyy.</div><div><br></div><div>Tähän jossain määrin liittyen: "Paasikiven-Kekkosen" palautuu (vain, mutta jostain syystä kahdesti) muotoon "Paasikiven-Kekkonen", mutta tästä ei liene niin paljon haittaa hauissa, sikäli kun myös hakutermit palautetaan perusmuotoon.</div><div><br></div><div><br></div><div><br></div><div>Outoja tunnistuksia:</div><div><br></div><div>- hautausma (<hautausmaa)</div><div>- kaarilassa (<kaarilassa. Kaarila on paikannimi)</div><div>- koskei (<kosken, tosi pieni paikka Kaakkois-Suomessa; mutta onko tässä kyseessä kosken-sanan perusmuoto "koska en"-lyhennyksenä?)</div><div>- suomenkieli (<suomenkielistä), ruotsinkieli (myös voikko hyväksyy nämä!)</div><div><br></div><div>- "parin" tunnistuu edelleen parka-sanan muodoksi (ei kuitenkaan esim. webvoikossa.)</div><div>- "parempi" tunnistuu VAIN parka-sanan muodoksi</div><div><br></div><div><br></div><div><div><div>Loput huomiot (tai osa aiemmistakaan) eivät ole ainakaan hakupuolen kannalta niin olennaisia, koska oikea muoto tunnistuu, mutta sen lisäksi myös vääriä muotoja löytyy.</div></div></div><div><br></div><div><br></div><div>Ehkä kiistanalaisia verbejä:</div><div><br></div><div>- myödä (=myydä, esiintyy tosi yleisenä perusmuotona myös-sanasta)</div><div><div>- maattaa (=maadoittaa - käytännössä ilmeisesti aika epäsana)</div></div><div><br></div><div><br></div><div>Ehkä tarkennusta kaipaavia etuliitteitä:</div><div><br></div><div><div>- mahdollistapa < mahdollistavat</div><div>- puistoti < puistotien</div></div><div><br></div><div><br></div><div>Ja taas luovia yhdyssanoja, joille ei enimmäkseen voine mitään, eikä varsinaisesti tarvikaan:</div><div><br></div><div><div>auringonpaistetuntie < auringonpaistetunti</div><div>erikoisoloka</div><div>erilaki</div><div>karjalapsi</div></div><div>karjalasta</div><div>kerrostalka < kerrostalo</div><div>kunnallisvaalea</div><div>kuulupa</div><div>kävelykatuja</div><div>maailmankuuluja</div><div>mineraalivaroja</div><div>monipuola</div><div>näkötorninen (adjektiivi, joka kuitenkin kuulostaa diminutiivilta, vrt. esim. kaksitorninen)</div><div>perintie</div><div>perukassa</div><div>päkiöittensäkki</div><div>rautatieasemaki</div><div>rautatieasemakki (makki on ilmeisesti kuivakäymälä)</div><div>soidenkäytös</div><div>suomalaki</div><div>suurimpi</div><div>suurinta</div><div>tammikuusi</div><div>tunnetuki</div><div>ulkomaalaki</div><div>vaalivoiton</div><div>vapaussotureisi</div><div>vesivoimaa</div><div>vuodelta</div><div>vuotiainen</div><div><br></div><div><br></div><div>Tuomas</div><div><br></div><div><br></div></body></html>