[voikko-devel] Kotuksen sanalista julkaistu
Harri Pitkänen
hatapitk at cc.jyu.fi
Fri Dec 15 18:57:27 EET 2006
On Friday 15 December 2006 17:59, Timo Jyrinki wrote:
> On Fri, 15 Dec 2006, Harri Pitkänen wrote:
> > lukukelpoisessa muodossaan." Jos tuolla tarkoitetaan sitä sanalistaa,
> > josta sovellus on generoitu, asia on OK ja juuri niin kuin LGPL
> > vaatiikin.
>
> Kyllä juuri noin tuon tulkitsisin, yritetään tuoda vain esille sitä LGPL:n
> vaatimusta että suljettujen ohjelmistojenkin täytyy tarjota
> tuohon perustuva sanalista avoimesti. "Alkuperäisessä" siis tarkoittanee
> melko varmasti "alkuperäistä" XML-muotoa josta ohjelmille varmastikin
> rukataan omat versiot jossain muussa muodossa (ellei ohjelmisto suoraan
> käytä XML:ää).
Tosin LGPL ei varsinaisesti vaadi edes alkuperäisen XML-muodon säilyttämistä.
Jos meille "the preferred form of the work for making modifications to it" on
jokin muu kuin XML, voimme sitä muutakin muotoa käyttää. Olen silti
kallistumassa siihen suuntaan, että ehkä haluaisinkin rakentaa Joukahaisen ja
Suomi-malagan välille XML-pohjaisen väliformaatin, vaikkapa juuri tuohon
Kotuksen käyttämään formaattiin pohjautuen. Joukahaisen XML-vienti on jo
kesästä asti ollut TODO-listalla, hyvin alhaisella prioriteetilla. Se olisi
kyllä kiva saada toimimaan, mutta kuten arvelinkin, Kotuksen formaatti ei
sisällä mitään tietoa sanojen johtamisesta, ja tämä aiheuttaa vähän
lisämutkia asiaan.
Testasinpa muuten, kuinka monta noista noista 94110 sanasta Voikko ei
tunnista. Tunnistamatta jäi ainoastaan 12404 sanaa, siis reilu 13 prosenttia.
Tunnistamattomat sanat näyttävät tämän tapaisilta:
...
kellastuttaa
kellelleen
kellellään
kellervä
kellokalle
kellukka
kelluslehti
kellute
kelmentyä
kelmentää
kelmetä
kelokko
kelottua
keloutua
kelsiturkki
keltahaarakas
keltajäkälä
keltakuume
...
kroatia
kroissantti
krokaani
kromikelta
kromioida
kromittaa
kromitus
kronkeli
kroonistaa
kroonistua
kruksata
kruksi
krupieeri
kruska
krustadi
kruunauttaa
...
Eli joukossa on sanoja, jotka ilman muuta kuuluisivat oikolukusanastoon, mutta
myös aika paljon tavaraa jota sinne ei ehkä kannata laittaakaan. Ja toinen
melko selvä asia tästä testistä on se, että tämä myyttinen 100000 sanan
Soikko-sanasto ei todellakaan ole välttämättä sen suurempi kuin Voikon
nykyinen sanasto. Tunnistihan Voikko noista Kotuksen sanoista peräti 81706
kappaletta vaikka muodollisesti Voikon sanasto on vasta noin 25000 sanan
suuruinen. Automaattijohdokset ovat tehokas työkalu.
Harri
More information about the devel
mailing list