[voikko-devel] Kotuksen sanalista julkaistu

Harri Pitkänen hatapitk at cc.jyu.fi
Fri Dec 15 18:57:27 EET 2006


On Friday 15 December 2006 17:59, Timo Jyrinki wrote:
> On Fri, 15 Dec 2006, Harri Pitkänen wrote:
> > lukukelpoisessa muodossaan." Jos tuolla tarkoitetaan sitä sanalistaa,
> > josta sovellus on generoitu, asia on OK ja juuri niin kuin LGPL
> > vaatiikin.
>
> Kyllä juuri noin tuon tulkitsisin, yritetään tuoda vain esille sitä LGPL:n
> vaatimusta että suljettujen ohjelmistojenkin täytyy tarjota
> tuohon perustuva sanalista avoimesti. "Alkuperäisessä" siis tarkoittanee
> melko varmasti "alkuperäistä" XML-muotoa josta ohjelmille varmastikin
> rukataan omat versiot jossain muussa muodossa (ellei ohjelmisto suoraan
> käytä XML:ää).

Tosin LGPL ei varsinaisesti vaadi edes alkuperäisen XML-muodon säilyttämistä. 
Jos meille "the preferred form of the work for making modifications to it" on 
jokin muu kuin XML, voimme sitä muutakin muotoa käyttää. Olen silti 
kallistumassa siihen suuntaan, että ehkä haluaisinkin rakentaa Joukahaisen ja 
Suomi-malagan välille XML-pohjaisen väliformaatin, vaikkapa juuri tuohon 
Kotuksen käyttämään formaattiin pohjautuen. Joukahaisen XML-vienti on jo 
kesästä asti ollut TODO-listalla, hyvin alhaisella prioriteetilla. Se olisi 
kyllä kiva saada toimimaan, mutta kuten arvelinkin, Kotuksen formaatti ei 
sisällä mitään tietoa sanojen johtamisesta, ja tämä aiheuttaa vähän 
lisämutkia asiaan.

Testasinpa muuten, kuinka monta noista noista 94110 sanasta Voikko ei 
tunnista. Tunnistamatta jäi ainoastaan 12404 sanaa, siis reilu 13 prosenttia. 
Tunnistamattomat sanat näyttävät tämän tapaisilta:

...
kellastuttaa
kellelleen
kellellään
kellervä
kellokalle
kellukka
kelluslehti
kellute
kelmentyä
kelmentää
kelmetä
kelokko
kelottua
keloutua
kelsiturkki
keltahaarakas
keltajäkälä
keltakuume
...
kroatia
kroissantti
krokaani
kromikelta
kromioida
kromittaa
kromitus
kronkeli
kroonistaa
kroonistua
kruksata
kruksi
krupieeri
kruska
krustadi
kruunauttaa
...


Eli joukossa on sanoja, jotka ilman muuta kuuluisivat oikolukusanastoon, mutta 
myös aika paljon tavaraa jota sinne ei ehkä kannata laittaakaan. Ja toinen 
melko selvä asia tästä testistä on se, että tämä myyttinen 100000 sanan 
Soikko-sanasto ei todellakaan ole välttämättä sen suurempi kuin Voikon 
nykyinen sanasto. Tunnistihan Voikko noista Kotuksen sanoista peräti 81706 
kappaletta vaikka muodollisesti Voikon sanasto on vasta noin 25000 sanan 
suuruinen. Automaattijohdokset ovat tehokas työkalu.

Harri



More information about the devel mailing list