[voikko-devel] Suomi-malagan taivutuskaavoista, Joukahaisen sanastosta

Harri Pitkänen hatapitk at cc.jyu.fi
Wed Nov 29 14:34:51 EET 2006


On Wednesday 29 November 2006 09:08, Hannu Väisänen wrote:
> Astevaihtelu ja taivutus on kuvattu eri tiedostoissa työn
> säästämiseksi. Esimerkiksi tiedostossa 01valo.ast on 24
> astevaihtelukaavaa. Jos astevaihtelu kuvattaisiin tiedostoissa
> 01*.txt, niitä pitäisi olla 24 kappaletta. Nykyisellä järjestelmällä
> tullaan toimeen neljällä tiedostolla: 01valo.ast ja 01koko.txt
> 01valo.txt 01vihko.txt.

En ymmärrä tätä selitystä. Miten muutaman rivin siirtäminen toisiin 
tiedostoihin johtaisi uusien tiedostojen syntyyn? En tarkoittanut sitä, että 
käyttämästäsi astevaihtelumekanismista luovuttaisiin, vaan ainoastaan sitä, 
että astevaihteluinformaatio kuvattaisiin samoissa tiedostoissa vastaavien 
taivutusten kanssa. Esimerkiksi tiedosto 01koko.txt voisi alkaa (kommentit 
pois lukien) seuraavasti:

[astevaihtelu]
koko   ko o  'o

[taivutus]
nimentö          ko+ko+
omistusliite     ko+ko+ni
omanto_n         ko+o+n
osanto_A         ko+ko+a
olento_nA        ko+ko+na
tulento_ksi      ko+o+ksi
sisäolento_ssA   ko+o+ssa
...


ja 01valo.txt

[astevaihtelu]
valo   "" ""
aalto  to lo
alku   ku u
anto   to no
apu    pu vu
hanko  ko go
hattu  tu u
hinku  ku gu
hoppu  pu u
kaarto to ro
kippo  po o
kumpu  pu mu
laatu  tu du
lepo   po vo
leuto  to do
liitto to o
lintu  tu nu
luku   ku vu
ruoko  ko 'o
sampo  po mo
tiuku  ku 'u
verkko ko o

[taivutus]
nimentö          aal+to+
omistusliite     aal+to+ni
omanto_n         aal+lo+n
osanto_A         aal+to+a
olento_nA        aal+to+na
tulento_ksi      aal+lo+ksi
sisäolento_ssA   aal+lo+ssa
sisäeronto_stA   aal+lo+sta
sisätulento_Vn   aal+to+on
ulko_olento_llA  aal+lo+lla
...

Nyt ei ast-tiedostoja tarvittaisi, ja yhteen taivutusluokkaan liittyvä 
informaatio olisi kätevästi yhdessä tiedostossa. Itse asiassa työtä tulee 
tässä vähemmän, koska astevaihteluiden kuvauksista jää yksi sarake 
tarpeettomana pois.

> Tiedostossa ohjeet/taivutus.tex on taulukko Nykysuomen sanakirjan ja
> Suomen kielen sanakirjan taivutuskaavojen eroista. Osa huomautuksista
> on jo vanhentuneita, mutta voiko taulukkoa käyttää dokumentin
> lähtökohtana? Se on LaTeX-muodossa, mutta sen voi muuttaa HTML:ksi.

Kyllä sitä minun puolestani voi käyttää. Dokumentaation lisensseistä meillä ei 
ole tosin vielä ollut puhetta. Minulle käy siinäkin oikeastaan mikä tahansa, 
kunhan lisenssi on GPL-yhteensopiva (tai "lisenssi X + GPL" -kaksoislisenssi) 
jotta dokumenteista voi huoletta tehdä GPL:n alaisia ohjelmia siinäkin 
tapauksessa, että dokumentti itsessään sisältää toteutettavan ohjelman 
oleelliset algoritmit.

Teemu: käykö sinulle, että tähän mennessä tekemämme docs-hakemiston ohjeet 
lisensoidaan vaikkapa yhdistelmällä "GPL v2 (tai uudempi) + Creative Commons 
Attribution-ShareAlike 2.5 (tai uudempi)"? Tuon yhdistelmän pitäisi olla 
riittävä kaikkeen järkevään käyttöön.

> Onko niin, että Joukahaisessa sanoilla voi olla vain kaksi
> taivutusluokkaa, nykyinen (suunnilleen Suomen kielen perussanakirja,
> PS) ja historiallinen (Nykysuomen sanakirja, NS)?

Taivutusluokkia (jotka ovat pohjimmiltaan vain tekstikenttiä) voi lisätä 
vapaasti tarpeen mukaan.

> Mitä tapahtuu, jos 
> saamme käyttöömme ajantasaisen taivutusluokituksen?

Riippuu vähän siitä, mitä tuo uusi luokitus sisältää. Yksi hyvin todennäköinen 
mahdollisuus on tosiaankin se, että sen sisältämät tiedot siirretään omaan 
kenttäänsä Joukahaiseen, koska tämän voi tehdä suurelta osin automaattisesti 
(homonyymit tuottavat vähän ongelmia). Tästä uudesta kentästä tulisi 
luultavasti ei-muokattava, tai ainakin suositeltaisiin ettei siihen tehtäisi 
muutoksia ilman painavaa syytä. Ja sitten joillakin automaattisilla hauilla 
tutkisimme, missä kohdin uusi luokitus ja nykyinen "taivutusluokka" olisivat 
keskenään ristiriidassa ja tekisimme tarvittavat korjaukset. Eipä kuitenkaan 
kannata enempää spekuloida tämän asian kanssa ennen kuin on varmaa, että 
tosiaankin saamme sen ajantasaisen luokituksen jostain...

Tarkoitus on kuitenkin pitää nykyistä "taivutusluokka"-kenttää jatkuvasti ajan 
tasalla uusimpien suositusten mukaan. Useamman kuin yhden historiallisen 
taivutusluokan säilyttäminen on toki mahdollista, mutta se edellyttäisi 
kuitenkin tarkempia määritelmiä (ainakin vuosikymmenen tarkkuudella) sille, 
minkä ajankohdan luokituksesta on kyse. Joka tapauksessa historiallista 
tietoa ei häviä, koska tietokannasta otetaan päivittäin kopioita, ja 
tarkoituksenani on säilyttää tasaisin aikavälein otettuja kopioita myös 
myöhempää käyttöä varten. Joukahaisen ohjeissa on muuten nykyään kerrottukin, 
kuinka noita tietokantakopioita voi käsitellä. Vanhaa tietoa voi siis 
suhteellisen helposti palauttaa takaisin Joukahaiseen, vaikka sitä olisi 
sieltä muokkausten takia hävinnyt.

> Yllä oleva ei tietenkään tarkoita sitä, että jokaisen sanan
> taivutusluokka pitäisi tarkistaa n:stä eri lähteestä, vaan sitä, että
> olisi hyvä, jos Joukahaisen sanastossa yhdellä sanalla voisi olla
> useampi kuin kaksi taivutusta niin kuin Joukahaisessa käsittääkseni
> yhdellä sanalla voi olla useampi kuin yksi kirjoitusasu.
> Taivutusluokkia voi sitten lisätä tarpeen mukaan.

Tämä on itse asiassa oikein hyvä ajatus, ainakin rinnakkaisten taivutusten 
käsittelyn kannalta. Nythän on niin, että jos sanalla on kaksi nykyään 
käytössä olevaa taivutuskaavaa, sanasta täytyy tehdä sanastoon erillinen 
kopioi. Järkevämpään olisi kehittää Joukahaiseen uusi 
tietotyyppi "moniarvoinen tekstikenttä", jota voisi sitten soveltaa sekä 
taivutusluokille että kirjoitusasuille. Tämä tosin vaatii jonkin verran 
ohjelmointityötä ja myös käyttöliittymän suunnittelua, sillä tuo nykyinen 
kirjoitusasujen editointiliittymä on liian kömpelö käytettäväksi 
taivutusluokkien käsittelyyn 99 prosentissa tapauksista, joissa sanalla on 
vain yksi taivutusluokka.


> Myös sanoja pitää muuttaa taivutusluokasta toiseen. Toivottavasti tämä
> ei ole liian työlästä. Mikä on paras tapa luetteloida tällaiset sanat?
> Riittääkö diff-komennon tulostus?

Antaisitko ensin esimerkkejä tapauksista, joissa sanoja pitäisi siirtää 
toiseen taivutusluokkaan? Näitä ei oikeastaan pitäisi olla kovin paljoa. 
Siirto Suomi-malagasta Joukahaiseen tehtiin häviöttömästi (varmistin 
diff-komennolla, että lex-tiedostojen sisältö ennen ja jälkeen siirron oli 
merkilleen sama), ja tapaukset joissa taivutusluokkaa on vaihdettu on aina 
tehty siksi, että entisessä luokassa oli jotain virheellistä. Jos tarkoitat 
sitä, että sana saa Sukijan kannalta väärän luokan, niin silloin korjaukset 
tehdään lisäämällä sanalle historiallinen taivutusluokka (tai jokin uusi 
kenttä). Jos taas tarkoitat sitä, että Suomi-malagassa on luokkajakoa 
muutettu, niin vastaava muutos täytyy todennäköisemmin tehdä 
muunnosohjelmaan, ei itse sanatietueisiin. Tämä jälkimmäinen tapaus on 
yleensä helppo korjata.

Harri



More information about the devel mailing list