[voikko] Suomenkielisen Wikipedian haravointia
Tuomas Salo
tuomas.salo at iki.fi
Tue Mar 24 11:31:36 EET 2020
Hei!
Iltojen ratoksi väsäsin muutaman skriptin, jolla voi ajella suomenkielisen Wikipedian artikkeleiden leipätekstit Voikon läpi. Projektin koodi on täällä: https://github.com/tuomassalo/wikipedia-voikko-analyzer
Tässä muutamia havaintoja:
1. Puuttuvia sanoja
Listasin sanat, joille analyze() ei palauttanut yhtään osumaa. Koetin pienen skriptin avulla ryhmitellä niitä, jotka saattavat olla saman sanan eri muotoja. Skripti löytyy tuolta Githubista, ja sen (edellisen version) tuloksia täältä: https://pastebin.com/0kggyNy8 .
Numerot kertovat monessako eri artikkelissa sana (ts. muoto) esiintyy, eli sillä ei ole merkitystä, montako kertaa sama muoto esiintyy yksittäisessä artikkelissa.
2. Muutamia satunnaisia huomioita
- Uusimmat sanastot: Jos ei ole työlästä, tämä sivu voisi päivittyä esim. joka yö: https://www.puimula.org/htp/testing/voikko-snapshot-v5/
- Miksi "kivikko" ja "mallinen" ovat tyyppiä nimisana_laatusana?
- "parturi-kampaaja" ja "metsästäjä-keräilijä" eivät analysoidu lainkaan, kuten eivät muut vastaavan muotoiset. Pitäisikö?
- Miksi "hienokuormitusohjelmistoista" palautuu (vain) laatusanaksi ("hienokuormitusohjelmistoinen")?
- Melko vaikea pähkinä: "tukiaikuinen" ja "aataminaikuinen" ovat tyyppiä nimisana_laatusana. Toki "aikuinen"-sanan pitääkin olla molempia. Vastaavia lienee muitakin.
Toisella skriptillä etsin Wikipediasta yhdyssanoja ja tein hyödyttömän botin, joka suoltaa niistä tällaisia yhdistelmiä:
leppävirtalainen leukalihas
mollivoittoinen monotärkkelysfosfaatti
mustapukuinen musiikkihuone
tummahipiäinen turnajaispeitsi
hopeanvalkoinen homoklubi
aprikoosinvärinen apuohjelma
salkkumallinen saunomistapa
kuplanmuotoinen kulttuurinationalisti
väestögeneettinen värisuora
Botti löytyy Twitteristä: https://twitter.com/olentobot
Tuomas
More information about the voikko
mailing list