[voikko] Suomen tavujen esiintyminen?

Harri Pitkänen hatapitk at iki.fi
Mon Aug 24 10:11:31 EEST 2015


Hei!

On Saturday 22 August 2015 20:42:46 Hannu Vuolasaho wrote:
> Moi!
> 
> Ajattelin tehdä jotain kummallista. Eli rakentaa esimerkiksi
> http://openstenoproject.org/ näkyvä stenoboard näppiksen. Oletuksena
> tuo laite on englannille optimoitu.
> 
> Tarvitsisi siis miettiä mitä tavuja on yleisimmin käytössä ja sen
> perusteella alkaa miettimään näppäimistölle layouttia.
> 
> Onko jossain tai onko tämän kaltaisen tilaston pulauttaminen Voikosta
> mahdollista?

Valmiina ei taida tällaista listaa olla, mutta sen tosiaan saa Voikon avulla 
tehtyä suhteellisen helposti. Voit edetä jotenkin näin:

- Kaiva suomenkielisestä Wikipediasta lista sanoista ja niiden esiintymien 
lukumääristä. Tästä voi olla apua, tai ehkä nykyään on parempiakin työkaluja:

  https://github.com/voikko/corevoikko/blob/master/tools/bin/wp-wordlist

- Suodata pois ne sanat, jotka eivät ole suomea. Tämä onnistuu voikkospell-
komennolla.

- Jaa jäljelle jääneet sanat tavuihin voikkohyphenate-komennolla.

- Laske tavujen esiintymät yhteen (painottaen sanan esiintymien lukumäärällä).

Jos teet suodatuksen ja tavutuksen käyttäen Voikon perussanastoa (sitä, joka 
tulee yleisimpien Linux-jakeluiden mukana), jäävät muutamat lääketieteen ja 
muiden tieteenalojen erityistermit pois. Luulisin, että tämä voi olla hyväkin 
asia: Erityisalojen sanastoa esiintyy ylipainotettuna Wikipedian kaltaisessa 
lähteessä, joten lopputuloksen kannalta voi pienempi paha, että ne jäävät 
kokonaan pois.

Python-libvoikko olisi tässä kätevä työkalu, jos olet tottunut Pythonia 
käyttämään. Tämä löytyy ainakin Debianista ja muistaakseni myös Ubuntusta.

Harri


More information about the voikko mailing list