[voikko-devel] Sanaston XML-formaatti kommentoitavaksi
Harri Pitkänen
hatapitk at iki.fi
Sun Feb 25 15:18:52 EET 2007
DTD-tiedosto ja käyttöesimerkki löytyvät täältä:
http://voikko.svn.sourceforge.net/viewvc/voikko/trunk/data/words/
Tuo esimerkkisana on keinotekoinen siinä mielessä, että liitin siihen
esimerkin vuoksi kaikki mahdolliset liput ja sanaluokat. Elementtien sisältöä
ei ole erikseen spesifioitu, mutta ne on tarkoitettu ymmärrettäväksi
Joukahaisen dokumentaation mukaisella tavalla. Liput on nimetty
Suomi-malagassa käytettyjen lippujen avulla, tai jos sellaisia ei ole ollut,
niille on annettu jokin muu nimi jonka kyllä pystyy helposti yhdistämään
vastaavaan lippuun Joukahaisessa.
Lippuja "Siirretty" ja "Virheellinen sana" ei tuossa formaatissa ole, sillä
tällaiset sanatietueet olen kokonaisuudessaan tulkinnut historiatiedoksi,
joita XML-sanalistaan ei lainkaan siirretä.
Vokaalisointuliput on korvattu elementillä /wordlist/word/inflection/vtype,
jonka sisältö on joko "a", "ä" tai "aä" Suomi-malagan äs-kentän tyylisesti.
Elementin /wordlist/word/classes/wclass arvo "substantiivi" tarkoittaa sitä,
että sana on yleisnimi, ei mikä tahansa substantiivi (ehkäpä siinä pitäisikin
käyttää nimitystä "yleisnimi").
Itse "sanaa" ei ole missään erillisessä elementissä, vaan
elementin /wordlist/word/forms sisällä on oltava aina vähintään yksi
form-elementti, joka sisältää sanan perusmuodossaan, jos kirjoitusasuja ei
ole Joukahaisessa asetettu.
Link-elementti on tarkoitettu vastaamaan nykyistä "Sana Wikissä"-kenttää. Olen
vähän miettinyt, pitäisikö se Joukahaisessa korvata vapaamuotoisella
URL-kentällä. Monesti parhaimmat sanan selitykset löytyvät joko Wikipediasta
tai jostain ihan muualta, mutta nykyään linkittäminen onnistuu vain
Wiktionaryyn.
On aika varmaa, että tuo formaatti jatkossa vielä elää. Siinä on varmasti
vielä aika paljon parantamisen varaa, mutta tuollaisenaan sen pitäisi jo
riittää Voikon ja Sukijan tarpeisiin.
Harri
More information about the devel
mailing list