[voikko-devel] XML-formaatista ja muusta

Harri Pitkänen hatapitk at cc.jyu.fi
Sun Mar 4 18:50:22 EET 2007


Sanaston vienti XML-formaattiin on nyt toteutettu. Toimintoa pääsee 
kokeilemaan valitsemalla Joukahaisen hakulomakkeelta kohdan "Tulosta 
XML-muodossa". Vaikka täydellisen listan saakin jättämällä kaikki hakuehdot 
asettamatta, suosittelen kuitenkin testausvaiheessa rajaamaan hakua vaikkapa 
valitsemalla ainoastaan h-kirjaimella alkavat sanat. Koko sanaston haku vie 
nimittäin hiukan aikaa, ja ainakin Firefoxilla on vaikeuksia käsitellä 
syntyvää tiedostoa sen suuren koon takia. Wget on turvallisin väline, jos 
todella haluaa täydellisen listan itselleen.

Myöhemmin tietysti tämäkin sanalista generoidaan kerran yössä staattiseen 
muotoon (luultavasti gzip-pakattuna, sillä se pienentää tiedoston koon noin 5 
prosenttiin alkuperäisestä). Sitten sen saa paljon nopeammin ladattua 
itselleen. Kannattaa myös huomata, että siirretyksi tai virhetallennukseksi 
merkittyjä sanoja ei saa XML-muodossa haettua. Vaikka malaga-listaukset ehkä 
aikanaan poistuvatkin käytöstä, täydet PostgreSQL-tietokantakopiot ovat 
jatkossakin saatavissa. Ne palvelevat varmuuskopioinnin tarpeita, ja niistä 
saa kaivettua kommentit ja muun historiatiedon jos sellaista johonkin 
tarvitsee.


Pari päivää sitten muutin myös Wiki-linkkikentän toimintaa siten, että siihen 
tulee nyt täydellinen http-alkuinen URL-osoite sellaiselle sivulle, joka 
sisältää sanaan liittyvää selventävää tietoa. Nyt siis voi linkittää 
Wiktionaryn lisäksi myös Wikipediaan, mikä varmaan monien sanojen kohdalla 
onkin järkevää kun tuo Wiktionary näyttää olevan sisällöltään varsin suppea.


Mikäli joku ei vielä ole sattunut huomaamaan, niin Kotus on helmikuussa 
julkaissut suomen kielen taajuussanalistoja: 
http://kaino.kotus.fi/sanat/taajuuslista/
Sieltä löytyy myös nykysuomen taajuuslista, jossa "nykysuomella" tarkoitetaan 
1990-luvun puolenvälin aikaista materiaalia. Näihin listoihin meillä ei 
kuitenkaan ole GPL-yhteensopivaa lisenssiä, joten niitä ei systemaattisesti 
voi Voikko-projektissa käyttää. Tosin oikeastihan tekstissä olevien sanojen 
aakkostetut luettelot eivät edes ole tekijänoikeuden suojaamia, mutta 
nykymaailmassa tällaiseen järkeilyyn ei enää uskalla luottaa jos luettelon 
tekemiseen on joku rahaa uhrannut. Oman yleisyysluokituksemme kalibrointiin 
ne saattavat olla käyttökelpoisia, mutta epäilenpä että sekään ei ole ihan 
helppoa ja tuskin käytännössä vaivan arvoista. Hatusta vedetyt arviot ovat 
meidän sovelluksissamme ihan riittäviä, ja monien sanojen yleisyys on 
muutenkin kymmenessä vuodessa muuttunut aika paljon.

Harri



More information about the devel mailing list