[voikko] Suomen tavujen esiintyminen?
Harri Pitkänen
hatapitk at iki.fi
Mon Aug 24 10:11:31 EEST 2015
Hei!
On Saturday 22 August 2015 20:42:46 Hannu Vuolasaho wrote:
> Moi!
>
> Ajattelin tehdä jotain kummallista. Eli rakentaa esimerkiksi
> http://openstenoproject.org/ näkyvä stenoboard näppiksen. Oletuksena
> tuo laite on englannille optimoitu.
>
> Tarvitsisi siis miettiä mitä tavuja on yleisimmin käytössä ja sen
> perusteella alkaa miettimään näppäimistölle layouttia.
>
> Onko jossain tai onko tämän kaltaisen tilaston pulauttaminen Voikosta
> mahdollista?
Valmiina ei taida tällaista listaa olla, mutta sen tosiaan saa Voikon avulla
tehtyä suhteellisen helposti. Voit edetä jotenkin näin:
- Kaiva suomenkielisestä Wikipediasta lista sanoista ja niiden esiintymien
lukumääristä. Tästä voi olla apua, tai ehkä nykyään on parempiakin työkaluja:
https://github.com/voikko/corevoikko/blob/master/tools/bin/wp-wordlist
- Suodata pois ne sanat, jotka eivät ole suomea. Tämä onnistuu voikkospell-
komennolla.
- Jaa jäljelle jääneet sanat tavuihin voikkohyphenate-komennolla.
- Laske tavujen esiintymät yhteen (painottaen sanan esiintymien lukumäärällä).
Jos teet suodatuksen ja tavutuksen käyttäen Voikon perussanastoa (sitä, joka
tulee yleisimpien Linux-jakeluiden mukana), jäävät muutamat lääketieteen ja
muiden tieteenalojen erityistermit pois. Luulisin, että tämä voi olla hyväkin
asia: Erityisalojen sanastoa esiintyy ylipainotettuna Wikipedian kaltaisessa
lähteessä, joten lopputuloksen kannalta voi pienempi paha, että ne jäävät
kokonaan pois.
Python-libvoikko olisi tässä kätevä työkalu, jos olet tottunut Pythonia
käyttämään. Tämä löytyy ainakin Debianista ja muistaakseni myös Ubuntusta.
Harri
More information about the voikko
mailing list