[voikko] Raaka voima lähestymistapa
Harri Pasanen
harri at mpaja.com
Thu May 7 10:35:49 EEST 2015
On 07/05/2015 06:51, Hannu Väisänen wrote:
> ke, 2015-05-06 kello 09:50 +0200, Harri Pasanen kirjoitti:
>
>> Uteliaisuus vei voiton ja tutkailin asiaa sen verran että latasin
>> suomenkielisen wikipedian sanaston tietokantaan. Erillisiä sanoja oli
>> suuruusluokkaa 2 miljoonaa, kun pudotti ne pois jotka esiintyivät vain
>> kerran, jäljelle jäi noin miljoona sanaa.
> Jos tarkoitat sanalla sanan taivutusmuotoa, niin vain kerran esiintyvien
> sanojen poistaminen ei ehkä ole hyvä idea. Kokeilin asiaa Projekti
> Lönnrotin (www.lonnrot.net) kirjoilla. Siinä aineistossa 58%
> taivutusmuodoista esiintyi vain kerran, mutta äkkiä katsottuna suurin
> osa niistä ei ole kirjoitusvirheitä. Esimerkiksi
>
> 1 aallonhalkaisija
> 1 aallonhalkaisijalla
> 1 aallonhalkaisijan
> 1 aallonhalkaisijasta
> 1 aallonhalkojaan
> 1 aallonhalkojaksi
> 1 aallonhalkojalla
> 1 aallonhalkojalle
> 1 aallonhalkojan
> 1 aallonhalkojassa
> 1 aallonharjaa
> 1 aallonharjoille
> 1 aallonharjoista
> 1 aallonharjojen
>
Juu, ilmeisesti suomenkielisen aineiston tulisi olla hyvin laaja jotta
eri taivutusmuodot voisi käsitellä erillisinä sanoina. Onko tällaista
aineistoa saatavilla?
Esimerkiksi Hesarin arkistot tarjoaisivat varmaan paremman aineiston
tähän lähestymistapaan. Tuskin antavat artikkeleita, mutta sanat
voisivat tulla vaikka satunnaisjärjestyksessä...
Onko nuo lonnrot.net: n kirjat kerralla ladattavissa, tai lista
tiedostoista mistä löytyy?
Selaillen näytti olevan tarjolla kirja kerrallaan ladattavaksi.
(Muuten kirjoitin äsken epähuomiossa 'kerallaan' ja tämä Thunderbirdin
Voikko ei sitä napannut virheeksi, Kubuntu 15.04).
Taivutusmuotojen käsittelyynkin voisi jotakin heuristista/tilastollista
algoritmia yrittää arpoa joka automaattisesti löytäisi suffiksit. Jos
sen onnistuisi tekemään niin että ei olisi sidottu kieleen, niin vielä
parempi. Luulisi että aiheesta jonkun gradun/diplomityön saisi tehtyä.
t. HPasa
More information about the voikko
mailing list