[voikko-devel] Sanaston XML-formaatti kommentoitavaksi
Reijo Tomperi
reijo.tomperi at pp2.inet.fi
Sun Feb 25 20:26:51 EET 2007
Harri Pitkänen wrote:
> XML-standardi sanoo, että "Values of type ID must match the Name production"
> jolloin arvo ei saa alkaa numeromerkillä. Jos haluttaisiin käyttää
> attribuutin arvona pelkkää lukua, määrittely voisi olla vaikka
> <!ATTLIST word id NMTOKEN #REQUIRED>
> mutta NMTOKEN-tyypin attribuutit sallivat myös saman arvon toistumisen
> useampaan kertaan, minkä halusin estää.
Sinällään tuo ei varmaan mitään ongelmia aiheuta. Tietokannoissa vain
yleensä kätevämpi pitää numeerisena, mutta jos kaikissa on sama etuliite
kirjaimena/kirjaimina, niin sehän on helppo parsia pois.
> Olet oikeassa. Käännän ainakin käyttöalaliput englanniksi, mutta muutamat muut
> liput saattavat olla sellaisia että en osaa niille hyvää käännöstä sanoa.
> Mitäpä on esimerkiksi "yksitekijäinen teonsana" sujuvalla englannin kielellä?
"single maker action word" Joo, jos ei vitsilinjalle lähdetä niin
vaikeaa on varmaan kääntää. Englannissahan ei muutenkaan varmaan ole
olemassa edes sanoja kaikille niille jutuille mihin suomessa sanoja
tarvitsee.
> Jatkossa voidaan tarvita samoja elementtejä eri ryhmien alla. Nyt meillä
> esimerkiksi on vain inflection/vtype, mutta tulevaisuudessa tarvitaan myös
> derivation/vtype jotta muutamia johdoksia vaivaavat virheelliset
> vokaalipäätteet saadaan korjatuksi.
Tuohan ei sinällään ole mikään ylipääsemätön ongelma, voidaan
yksinkertaisesti nimetä elementit esim "derivation_vtype" ja
"inflection_vtype". Mutta tietysti jos meillä on 10 derivation_ alkuista
ja 10 inflection_ alkuista elementtiä, niin siinä vaiheessa voi alkaa jo
miettimään onko järkevää erotella niitä nimien perusteella, vai olisiko
fiksumpaa laittaa ne pääelementtien alle. Tuon 10:n saa ymmärtää
kymmenjärjestelmän tai binäärijärjestelmän lukuna ;)
Fiksuinta on tietysti jo tässä vaiheessa yrittää saada formaatti
lopulliseen muotoon tai vähintäänkin päättää mitä kaikkia tietoja
formaattiin pitää pystyä tallentamaan, jotta voisi päättää mitkä
kannattaa laittaa juureen ja mitkä ei.
Tuli muuten mieleen, että jonkinlainen kommentti-elementti tai vastaava
voisi olla hyvä varmuuden vuoksi sallia myös (vaikka en tiedä tuleeko
sillekään mitään käyttöä). Entä mahdetaanko kaivata sanan muutoshistoriaa?
Lohdullisena puolenahan tässä on kuitenkin se, että formaatti on varmaan
hyvin pitkään vain tämän projektin käytössä, joten hyvinkin radkiaalien
muutosten teko onnistuu todennäköisesti aika kivuttomasti myös jälkikäteen.
More information about the devel
mailing list