[voikko-devel] XML-formaatista ja muusta
Harri Pitkänen
hatapitk at cc.jyu.fi
Sun Mar 4 18:50:22 EET 2007
Sanaston vienti XML-formaattiin on nyt toteutettu. Toimintoa pääsee
kokeilemaan valitsemalla Joukahaisen hakulomakkeelta kohdan "Tulosta
XML-muodossa". Vaikka täydellisen listan saakin jättämällä kaikki hakuehdot
asettamatta, suosittelen kuitenkin testausvaiheessa rajaamaan hakua vaikkapa
valitsemalla ainoastaan h-kirjaimella alkavat sanat. Koko sanaston haku vie
nimittäin hiukan aikaa, ja ainakin Firefoxilla on vaikeuksia käsitellä
syntyvää tiedostoa sen suuren koon takia. Wget on turvallisin väline, jos
todella haluaa täydellisen listan itselleen.
Myöhemmin tietysti tämäkin sanalista generoidaan kerran yössä staattiseen
muotoon (luultavasti gzip-pakattuna, sillä se pienentää tiedoston koon noin 5
prosenttiin alkuperäisestä). Sitten sen saa paljon nopeammin ladattua
itselleen. Kannattaa myös huomata, että siirretyksi tai virhetallennukseksi
merkittyjä sanoja ei saa XML-muodossa haettua. Vaikka malaga-listaukset ehkä
aikanaan poistuvatkin käytöstä, täydet PostgreSQL-tietokantakopiot ovat
jatkossakin saatavissa. Ne palvelevat varmuuskopioinnin tarpeita, ja niistä
saa kaivettua kommentit ja muun historiatiedon jos sellaista johonkin
tarvitsee.
Pari päivää sitten muutin myös Wiki-linkkikentän toimintaa siten, että siihen
tulee nyt täydellinen http-alkuinen URL-osoite sellaiselle sivulle, joka
sisältää sanaan liittyvää selventävää tietoa. Nyt siis voi linkittää
Wiktionaryn lisäksi myös Wikipediaan, mikä varmaan monien sanojen kohdalla
onkin järkevää kun tuo Wiktionary näyttää olevan sisällöltään varsin suppea.
Mikäli joku ei vielä ole sattunut huomaamaan, niin Kotus on helmikuussa
julkaissut suomen kielen taajuussanalistoja:
http://kaino.kotus.fi/sanat/taajuuslista/
Sieltä löytyy myös nykysuomen taajuuslista, jossa "nykysuomella" tarkoitetaan
1990-luvun puolenvälin aikaista materiaalia. Näihin listoihin meillä ei
kuitenkaan ole GPL-yhteensopivaa lisenssiä, joten niitä ei systemaattisesti
voi Voikko-projektissa käyttää. Tosin oikeastihan tekstissä olevien sanojen
aakkostetut luettelot eivät edes ole tekijänoikeuden suojaamia, mutta
nykymaailmassa tällaiseen järkeilyyn ei enää uskalla luottaa jos luettelon
tekemiseen on joku rahaa uhrannut. Oman yleisyysluokituksemme kalibrointiin
ne saattavat olla käyttökelpoisia, mutta epäilenpä että sekään ei ole ihan
helppoa ja tuskin käytännössä vaivan arvoista. Hatusta vedetyt arviot ovat
meidän sovelluksissamme ihan riittäviä, ja monien sanojen yleisyys on
muutenkin kymmenessä vuodessa muuttunut aika paljon.
Harri
More information about the devel
mailing list