[voikko] muutamia huomioita Sukijasta

Tuomas Salo tuomas.salo at iki.fi
Sat Sep 3 11:50:20 EEST 2011


Hei,

sain Sukijan päivitettyä (kiitokset Harri), ja tutkiskelin taas hieman sen käyttöä sanojen yleisyysanalyysiin sekä vapaasanahakuihin. Tässä muutamia huomioita, svn-versiosta siis. Käytin syötteenä suomenkielisestä Wikipediasta muutamaa sivua, joista palautin sanoja perusmuotoon. Tutkailin sitten lähinnä ei-löytyneitä sanoja ja myös sellaisia, joista löytyi useampi kuin yksi muoto.

Noin yleisesti Sukija näyttäisi tuottavan tosi laadukkaita palautuksia. Täsmällisyyttä parantaisi merkittävästi varmaankin vasta lauserakenteiden analysointi, jolloin useammasta mahdollisesta perusmuodosta voitaisiin lähes aina valita yksi oikea lauseyhteyden nojalla, samoin eritellä paremmin yleis- ja erisnimiä.

Jos mulla on aikaa, voisin pistää Sukijan läpi koneellisesti isommankin määrän esim. Wikipedia-materiaalia ja tutkia yleisimpiä hylättyjä.

Onkohan paljonkin sanoja, jotka Sukija kertoo perusmuodoiksi mutta joita Voikko ei tunnista lainkaan? Mistä tämä johtuu - ovatko sanastot (yhä?) jotenkin niin erilliset? Olisiko hyötyä jopa syöttää Sukijan suoltamia perusmuotoja Voikolle ja etsiä ei-tunnistettuja?


Muutamia puuttuvia sanoja:

- ict-ala
- inkerinsuomalainen
- pähkinäinen
- pääpiirteittäinen (onko tarvettakaan?)
- Schengen-alue

- Benin
- Benelux-maat
- Kazakstan (mutta "Kazahstan" löytyy)

- Bergen
- Bratislava
- Bukarest
- Göteborg
- yms.

- Wuolijoki (harvinainen mutta tunnettu sukunimi)


Lisäksi "Ison-Britannian" palautuu (vain) muotoon "Ison-Britannia", "Isoa-Britanniaa" muotoon "Isoa-Britannia" jne., minkä näkisin haittaavan hakusovelluksia. Luultavasti muitakin esimerkkejä löytyy.

Tähän jossain määrin liittyen: "Paasikiven-Kekkosen" palautuu (vain, mutta jostain syystä kahdesti) muotoon "Paasikiven-Kekkonen", mutta tästä ei liene niin paljon haittaa hauissa, sikäli kun myös hakutermit palautetaan perusmuotoon.



Outoja tunnistuksia:

- hautausma (<hautausmaa)
- kaarilassa (<kaarilassa. Kaarila on paikannimi)
- koskei (<kosken, tosi pieni paikka Kaakkois-Suomessa; mutta onko tässä kyseessä kosken-sanan perusmuoto "koska en"-lyhennyksenä?)
- suomenkieli (<suomenkielistä), ruotsinkieli (myös voikko hyväksyy nämä!)

- "parin" tunnistuu edelleen parka-sanan muodoksi (ei kuitenkaan esim. webvoikossa.)
- "parempi" tunnistuu VAIN parka-sanan muodoksi


Loput huomiot (tai osa aiemmistakaan) eivät ole ainakaan hakupuolen kannalta niin olennaisia, koska oikea muoto tunnistuu, mutta sen lisäksi myös vääriä muotoja löytyy.


Ehkä kiistanalaisia verbejä:

- myödä (=myydä, esiintyy tosi yleisenä perusmuotona myös-sanasta)
- maattaa (=maadoittaa - käytännössä ilmeisesti aika epäsana)


Ehkä tarkennusta kaipaavia etuliitteitä:

- mahdollistapa < mahdollistavat
- puistoti < puistotien


Ja taas luovia yhdyssanoja, joille ei enimmäkseen voine mitään, eikä varsinaisesti tarvikaan:

auringonpaistetuntie < auringonpaistetunti
erikoisoloka
erilaki
karjalapsi
karjalasta
kerrostalka < kerrostalo
kunnallisvaalea
kuulupa
kävelykatuja
maailmankuuluja
mineraalivaroja
monipuola
näkötorninen (adjektiivi, joka kuitenkin kuulostaa diminutiivilta, vrt. esim. kaksitorninen)
perintie
perukassa
päkiöittensäkki
rautatieasemaki
rautatieasemakki (makki on ilmeisesti kuivakäymälä)
soidenkäytös
suomalaki
suurimpi
suurinta
tammikuusi
tunnetuki
ulkomaalaki
vaalivoiton
vapaussotureisi
vesivoimaa
vuodelta
vuotiainen


Tuomas


-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.puimula.org/pipermail/voikko/attachments/20110903/6703ea76/attachment.html>


More information about the voikko mailing list