[voikko] Tiedoksi Sukija-sovellus: Puheenvuorot.kansanmuisti.fi (ja hiukan sanoja)

Tuomas Salo tuomas.salo at iki.fi
Mon Nov 7 19:10:42 EET 2011


Hei!

Joskus mietityttää, minkä verran ja minkälaisiin asioihin Voikkoa ja Sukijaa käytetään. Oma korteni kekoon:

http://puheenvuorot.kansanmuisti.fi/

Kokosin tuon palvelun havainnollistamaan eduskunnan täysistuntojen puheenvuorodataa. (Osallistuin sillä myös Apps4Finland-kilpailuun, ks. http://apps4finland.fi/fi/kilpailutyot/sovellus-puheenvuorot-kansanmuisti.fi - saa käydä äänestämässä. :)

Palvelu hakee dataa eduskunnan sgml-tiedostoista ja vie Mysql-kantaan. Puheenvuorojen teksti hajotetaan Sukijan avulla perusmuodotetuiksi sanoiksi, joista tehdään sanapilviä. Yleisimmät sanat on tietenkin stopattu pois.

Perusmuotoistamisesta saattaa olla muillekin iloa, ja kaikilla ei ole ehkä mahdollisuuksia asentaa itselleen Sukijaa, joten julkaisin samalla Perusta-palvelun: http://perusta.kansanmuisti.fi/perusta/

Muutamia huomioita:

- puheenvuorojen tekstiaineistoa on vuosilta 1999-2011 yhteensä 250 megaa (113000 puheenvuoroa)

- ruotsinkieliset puheenvuorot ovat vain karusti mukana ja yleisimmät sanat niistäkin stopattu

- Sukija, vaikka onkin tarkoitettu ensi sijassa indeksointiin, soveltuu hyvin pilvien piirtelyyn. Tarkempaan analyysiin pääsisi vain jos voisi analysoida kokonaisia virkkeitä. 

- Perusta-palvelun käyttämä sanoihinjakamiskoodi on melko simppeli, eikä osaa käsitellä esim. "sosiaali- ja terveysministeri"-tapausta. Hätäratkaisuna nämä tapaukset ositetaan kolmeksi sanaksi (sosiaali, ja, terveysministeri), mikä tietysti on virheellistä mutta ehkä parempi kuin ei mitään. Oikeinta olisi kai käsitellä tätä jonkinlaisena kokonaisuutena (samoin kuin monia muita käsitteitä), mutta sepä onkin aika paljon mutkikkaampi juttu.

- lista tunnistamattomista sanoista jää melko lyhyeksi. Selasin läpi kaikki ei-tunnistetut sanat, jotka esiintyivät aineistossa yli 25 kertaa (siis yksittäisen muodon pitää esiintyä 25 kertaa). Tässä satoa:

  - yleisimpiä ovat edustajien sukunimet (Arhinmäki, Stubb, ...)

  - sitten ehkä laitokset ja yhtiöt, yhteisöt yms. (esim. Itella, Stakes, Fortum, Tekes, Valvira, Evira, Destia, Teliasonera, Amnesty, Greenpeace, Natura)

  - paikannimistä yleisimpiä ovat tietysti johonkin sopimukseen liittyvät tai muuten poliittisesti värittyneet: Ottawan sopimus, Nizzan sopimus, Vuotos, Johannesburg

  - lisäksi löytyi ainakin muutama melko oikea sana: etyj, EY-tuomioistuin (vanhentunut nimitys), Maamme-laulu, toistakymmentätuhatta (yms), työssäkäyvä, korvamerkitä, viisinkertainen, windfall-vero (ja windfall-voitto jne), pidättäydytään (Voikko tunnistaa, Sukija ei?), pääomittaminen, eurooppaministeri, työssäjaksaminen, käteenjäävä, yt-neuvottelut, kankkulan (kaivoon), pohdituttaa

  - ei-ehkä-ihan-sanoja: sinällänsä, jolloinka, vastuuttaa, kohtaantuvat, edustautuminen, kohtaanto-ongelma (ks. http://www.hs.fi/kotimaa/artikkeli/Kohtaanto-ongelma++ty%C3%B6voimatoimistossa/HS20070124SI1YO0130t), prikulleen, keskustelutti, joustavoitetaan, ympärivuotistaminen, ongelmatiikkaan (huh...)

- Juha Miedon puheenvuorot eivät oikein indeksoituneet, ks. http://puheenvuorot.kansanmuisti.fi/puhujat/368-juha-mieto (Ikään kuin kaikki muut puhuisivat aina täysin kirjakieltä...)


Kiitokset siis vielä Voikon ja Sukijan kehitykseen osallistuneille - tämä on ollut (ja on edelleen) hauska projekti, eikä olisi onnistunut ilman teitä!

T





-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.puimula.org/pipermail/voikko/attachments/20111107/f3e8d5ce/attachment.html>


More information about the voikko mailing list