[voikko] Raaka voima lähestymistapa

Harri Pasanen harri at mpaja.com
Thu May 7 10:35:49 EEST 2015


On 07/05/2015 06:51, Hannu Väisänen wrote:
> ke, 2015-05-06 kello 09:50 +0200, Harri Pasanen kirjoitti:
>
>> Uteliaisuus vei voiton ja tutkailin asiaa sen verran että latasin
>> suomenkielisen wikipedian sanaston tietokantaan.   Erillisiä sanoja oli
>> suuruusluokkaa 2 miljoonaa, kun pudotti ne pois jotka esiintyivät vain
>> kerran, jäljelle jäi noin miljoona sanaa.
> Jos tarkoitat sanalla sanan taivutusmuotoa, niin vain kerran esiintyvien
> sanojen poistaminen ei ehkä ole hyvä idea. Kokeilin asiaa Projekti
> Lönnrotin (www.lonnrot.net) kirjoilla. Siinä aineistossa 58%
> taivutusmuodoista esiintyi vain kerran, mutta äkkiä katsottuna suurin
> osa niistä ei ole kirjoitusvirheitä. Esimerkiksi
>
>        1 aallonhalkaisija
>        1 aallonhalkaisijalla
>        1 aallonhalkaisijan
>        1 aallonhalkaisijasta
>        1 aallonhalkojaan
>        1 aallonhalkojaksi
>        1 aallonhalkojalla
>        1 aallonhalkojalle
>        1 aallonhalkojan
>        1 aallonhalkojassa
>        1 aallonharjaa
>        1 aallonharjoille
>        1 aallonharjoista
>        1 aallonharjojen
>
Juu, ilmeisesti suomenkielisen aineiston tulisi olla hyvin laaja jotta 
eri taivutusmuodot voisi käsitellä erillisinä sanoina.   Onko tällaista 
aineistoa saatavilla?
Esimerkiksi Hesarin arkistot tarjoaisivat varmaan paremman aineiston 
tähän lähestymistapaan. Tuskin antavat artikkeleita, mutta sanat 
voisivat tulla vaikka satunnaisjärjestyksessä...

Onko nuo lonnrot.net: n kirjat kerralla ladattavissa, tai lista 
tiedostoista mistä löytyy?
Selaillen näytti olevan tarjolla kirja kerrallaan ladattavaksi.

(Muuten kirjoitin äsken epähuomiossa 'kerallaan' ja tämä Thunderbirdin 
Voikko ei sitä napannut virheeksi, Kubuntu 15.04).

Taivutusmuotojen käsittelyynkin voisi jotakin heuristista/tilastollista 
algoritmia yrittää arpoa joka automaattisesti löytäisi suffiksit.   Jos 
sen onnistuisi tekemään niin että ei olisi sidottu kieleen, niin vielä 
parempi.   Luulisi että aiheesta jonkun gradun/diplomityön saisi tehtyä.


t. HPasa






More information about the voikko mailing list