[voikko] Raaka voima lähestymistapa
Harri Pitkänen
hatapitk at iki.fi
Wed May 6 17:56:12 EEST 2015
On Wednesday 06 May 2015 09:50:22 Harri Pasanen wrote:
> Uteliaisuus vei voiton ja tutkailin asiaa sen verran että latasin
> suomenkielisen wikipedian sanaston tietokantaan. Erillisiä sanoja oli
> suuruusluokkaa 2 miljoonaa, kun pudotti ne pois jotka esiintyivät vain
> kerran, jäljelle jäi noin miljoona sanaa. Vaikka kyseessä siis
> kertaluokkaa enemmän sanoja kuin englannissa, ei tämä nykykoneille ole
> mitenkään mahdoton aineisto. Tuossa joukossa on varmasti jäljellä
> paljon erisnimiä, vieraskielisiä sanoja ja yleisiä kirjoitusvirheitä.
> Tämän edemmäksi en vielä ehtinyt, mutta voisin kuvitella että voisi
> vaikka toimia näinkin. Onko arvauksia tai tietoa tästä lähestymistavasta?
Sen verran voin tästä kertoa, että itse en ole kokeillut asiaa, mutta
keskustelin hiljattain erään henkilön kanssa, joka on vastaavaa asiaa
pohtinut. Tarkalleen ottaen hänellä oli ajatuksena käyttää suurempaakin
sanastoa ja tietyntyyppistä algoritmia, jolla aineiston saa pakattua
kuluttajakäyttöön sopivaan kokoon.
En ole hänestä myöhemmin kuullut, joten vieläkään meillä ei taida olla
kokeiltua tietoa siitä, kuinka hyvin tällainen ratkaisu toimisi. Olisi hyvä,
jos joku joskus kokeilisi ja kertoisi, kuinka käyttökelpoinen tuosta tulee.
Harri
More information about the voikko
mailing list