[voikko-devel] Sanaston XML-formaatti kommentoitavaksi

Reijo Tomperi reijo.tomperi at pp2.inet.fi
Sun Feb 25 20:26:51 EET 2007


Harri Pitkänen wrote:

> XML-standardi sanoo, että "Values of type ID must match the Name production" 
> jolloin arvo ei saa alkaa numeromerkillä. Jos haluttaisiin käyttää 
> attribuutin arvona pelkkää lukua, määrittely voisi olla vaikka
> <!ATTLIST word id NMTOKEN #REQUIRED>
> mutta NMTOKEN-tyypin attribuutit sallivat myös saman arvon toistumisen 
> useampaan kertaan, minkä halusin estää.

Sinällään tuo ei varmaan mitään ongelmia aiheuta. Tietokannoissa vain 
yleensä kätevämpi pitää numeerisena, mutta jos kaikissa on sama etuliite 
kirjaimena/kirjaimina, niin sehän on helppo parsia pois.

> Olet oikeassa. Käännän ainakin käyttöalaliput englanniksi, mutta muutamat muut 
> liput saattavat olla sellaisia että en osaa niille hyvää käännöstä sanoa. 
> Mitäpä on esimerkiksi "yksitekijäinen teonsana" sujuvalla englannin kielellä? 

"single maker action word" Joo, jos ei vitsilinjalle lähdetä niin 
vaikeaa on varmaan kääntää. Englannissahan ei muutenkaan varmaan ole 
olemassa edes sanoja kaikille niille jutuille mihin suomessa sanoja 
tarvitsee.

> Jatkossa voidaan tarvita samoja elementtejä eri ryhmien alla. Nyt meillä 
> esimerkiksi on vain inflection/vtype, mutta tulevaisuudessa tarvitaan myös 
> derivation/vtype jotta muutamia johdoksia vaivaavat virheelliset 
> vokaalipäätteet saadaan korjatuksi.

Tuohan ei sinällään ole mikään ylipääsemätön ongelma, voidaan 
yksinkertaisesti nimetä elementit esim "derivation_vtype" ja 
"inflection_vtype". Mutta tietysti jos meillä on 10 derivation_ alkuista 
ja 10 inflection_ alkuista elementtiä, niin siinä vaiheessa voi alkaa jo 
miettimään onko järkevää erotella niitä nimien perusteella, vai olisiko 
fiksumpaa laittaa ne pääelementtien alle. Tuon 10:n saa ymmärtää 
kymmenjärjestelmän tai binäärijärjestelmän lukuna ;)

Fiksuinta on tietysti jo tässä vaiheessa yrittää saada formaatti 
lopulliseen muotoon tai vähintäänkin päättää mitä kaikkia tietoja 
formaattiin pitää pystyä tallentamaan, jotta voisi päättää mitkä 
kannattaa laittaa juureen ja mitkä ei.

Tuli muuten mieleen, että jonkinlainen kommentti-elementti tai vastaava 
voisi olla hyvä varmuuden vuoksi sallia myös (vaikka en tiedä tuleeko 
sillekään mitään käyttöä). Entä mahdetaanko kaivata sanan muutoshistoriaa?

Lohdullisena puolenahan tässä on kuitenkin se, että formaatti on varmaan 
hyvin pitkään vain tämän projektin käytössä, joten hyvinkin radkiaalien 
muutosten teko onnistuu todennäköisesti aika kivuttomasti myös jälkikäteen.



More information about the devel mailing list