[voikko] Raaka voima lähestymistapa

Harri Pitkänen hatapitk at iki.fi
Wed May 6 17:56:12 EEST 2015


On Wednesday 06 May 2015 09:50:22 Harri Pasanen wrote:
> Uteliaisuus vei voiton ja tutkailin asiaa sen verran että latasin
> suomenkielisen wikipedian sanaston tietokantaan.   Erillisiä sanoja oli
> suuruusluokkaa 2 miljoonaa, kun pudotti ne pois jotka esiintyivät vain
> kerran, jäljelle jäi noin miljoona sanaa.   Vaikka kyseessä siis
> kertaluokkaa enemmän sanoja kuin englannissa, ei tämä nykykoneille ole
> mitenkään mahdoton aineisto.  Tuossa joukossa on varmasti jäljellä
> paljon erisnimiä, vieraskielisiä sanoja ja yleisiä kirjoitusvirheitä.
> Tämän edemmäksi en vielä ehtinyt, mutta voisin kuvitella että voisi
> vaikka toimia näinkin.   Onko arvauksia tai tietoa tästä lähestymistavasta?

Sen verran voin tästä kertoa, että itse en ole kokeillut asiaa, mutta 
keskustelin hiljattain erään henkilön kanssa, joka on vastaavaa asiaa 
pohtinut. Tarkalleen ottaen hänellä oli ajatuksena käyttää suurempaakin 
sanastoa ja tietyntyyppistä algoritmia, jolla aineiston saa pakattua 
kuluttajakäyttöön sopivaan kokoon.

En ole hänestä myöhemmin kuullut, joten vieläkään meillä ei taida olla 
kokeiltua tietoa siitä, kuinka hyvin tällainen ratkaisu toimisi. Olisi hyvä, 
jos joku joskus kokeilisi ja kertoisi, kuinka käyttökelpoinen tuosta tulee.

Harri


More information about the voikko mailing list