[voikko] Suomenkielisen Wikipedian haravointia

Tuomas Salo tuomas.salo at iki.fi
Tue Mar 24 11:31:36 EET 2020


Hei!

Iltojen ratoksi väsäsin muutaman skriptin, jolla voi ajella suomenkielisen Wikipedian artikkeleiden leipätekstit Voikon läpi. Projektin koodi on täällä: https://github.com/tuomassalo/wikipedia-voikko-analyzer

Tässä muutamia havaintoja:

1. Puuttuvia sanoja

Listasin sanat, joille analyze() ei palauttanut yhtään osumaa. Koetin pienen skriptin avulla ryhmitellä niitä, jotka saattavat olla saman sanan eri muotoja. Skripti löytyy tuolta Githubista, ja sen (edellisen version) tuloksia täältä: https://pastebin.com/0kggyNy8 .

Numerot kertovat monessako eri artikkelissa sana (ts. muoto) esiintyy, eli sillä ei ole merkitystä, montako kertaa sama muoto esiintyy yksittäisessä artikkelissa.

2. Muutamia satunnaisia huomioita

- Uusimmat sanastot: Jos ei ole työlästä, tämä sivu voisi päivittyä esim. joka yö: https://www.puimula.org/htp/testing/voikko-snapshot-v5/

- Miksi "kivikko" ja "mallinen" ovat tyyppiä nimisana_laatusana?

- "parturi-kampaaja" ja "metsästäjä-keräilijä" eivät analysoidu lainkaan, kuten eivät muut vastaavan muotoiset. Pitäisikö?

- Miksi "hienokuormitusohjelmistoista" palautuu (vain) laatusanaksi ("hienokuormitusohjelmistoinen")?

- Melko vaikea pähkinä: "tukiaikuinen" ja "aataminaikuinen" ovat tyyppiä nimisana_laatusana. Toki "aikuinen"-sanan pitääkin olla molempia. Vastaavia lienee muitakin.


Toisella skriptillä etsin Wikipediasta yhdyssanoja ja tein hyödyttömän botin, joka suoltaa niistä tällaisia yhdistelmiä:

leppävirtalainen leukalihas
mollivoittoinen monotärkkelysfosfaatti
mustapukuinen musiikkihuone
tummahipiäinen turnajaispeitsi
hopeanvalkoinen homoklubi
aprikoosinvärinen apuohjelma
salkkumallinen saunomistapa
kuplanmuotoinen kulttuurinationalisti
väestögeneettinen värisuora

Botti löytyy Twitteristä: https://twitter.com/olentobot


Tuomas




More information about the voikko mailing list