[voikko-devel] Sanaston XML-formaatti kommentoitavaksi

Harri Pitkänen hatapitk at iki.fi
Sun Feb 25 15:18:52 EET 2007


DTD-tiedosto ja käyttöesimerkki löytyvät täältä:

http://voikko.svn.sourceforge.net/viewvc/voikko/trunk/data/words/

Tuo esimerkkisana on keinotekoinen siinä mielessä, että liitin siihen 
esimerkin vuoksi kaikki mahdolliset liput ja sanaluokat. Elementtien sisältöä 
ei ole erikseen spesifioitu, mutta ne on tarkoitettu ymmärrettäväksi 
Joukahaisen dokumentaation mukaisella tavalla. Liput on nimetty 
Suomi-malagassa käytettyjen lippujen avulla, tai jos sellaisia ei ole ollut, 
niille on annettu jokin muu nimi jonka kyllä pystyy helposti yhdistämään 
vastaavaan lippuun Joukahaisessa.

Lippuja "Siirretty" ja "Virheellinen sana" ei tuossa formaatissa ole, sillä 
tällaiset sanatietueet olen kokonaisuudessaan tulkinnut historiatiedoksi, 
joita XML-sanalistaan ei lainkaan siirretä.

Vokaalisointuliput on korvattu elementillä /wordlist/word/inflection/vtype, 
jonka sisältö on joko "a", "ä" tai "aä" Suomi-malagan äs-kentän tyylisesti.

Elementin /wordlist/word/classes/wclass arvo "substantiivi" tarkoittaa sitä, 
että sana on yleisnimi, ei mikä tahansa substantiivi (ehkäpä siinä pitäisikin 
käyttää nimitystä "yleisnimi").

Itse "sanaa" ei ole missään erillisessä elementissä, vaan 
elementin /wordlist/word/forms sisällä on oltava aina vähintään yksi 
form-elementti, joka sisältää sanan perusmuodossaan, jos kirjoitusasuja ei 
ole Joukahaisessa asetettu.

Link-elementti on tarkoitettu vastaamaan nykyistä "Sana Wikissä"-kenttää. Olen 
vähän miettinyt, pitäisikö se Joukahaisessa korvata vapaamuotoisella 
URL-kentällä. Monesti parhaimmat sanan selitykset löytyvät joko Wikipediasta 
tai jostain ihan muualta, mutta nykyään linkittäminen onnistuu vain 
Wiktionaryyn.


On aika varmaa, että tuo formaatti jatkossa vielä elää. Siinä on varmasti 
vielä aika paljon parantamisen varaa, mutta tuollaisenaan sen pitäisi jo 
riittää Voikon ja Sukijan tarpeisiin.

Harri



More information about the devel mailing list