[voikko-devel] Suomi-malagan taivutuskaavoista, Joukahaisen sanastosta
Harri Pitkänen
hatapitk at cc.jyu.fi
Wed Nov 29 14:34:51 EET 2006
On Wednesday 29 November 2006 09:08, Hannu Väisänen wrote:
> Astevaihtelu ja taivutus on kuvattu eri tiedostoissa työn
> säästämiseksi. Esimerkiksi tiedostossa 01valo.ast on 24
> astevaihtelukaavaa. Jos astevaihtelu kuvattaisiin tiedostoissa
> 01*.txt, niitä pitäisi olla 24 kappaletta. Nykyisellä järjestelmällä
> tullaan toimeen neljällä tiedostolla: 01valo.ast ja 01koko.txt
> 01valo.txt 01vihko.txt.
En ymmärrä tätä selitystä. Miten muutaman rivin siirtäminen toisiin
tiedostoihin johtaisi uusien tiedostojen syntyyn? En tarkoittanut sitä, että
käyttämästäsi astevaihtelumekanismista luovuttaisiin, vaan ainoastaan sitä,
että astevaihteluinformaatio kuvattaisiin samoissa tiedostoissa vastaavien
taivutusten kanssa. Esimerkiksi tiedosto 01koko.txt voisi alkaa (kommentit
pois lukien) seuraavasti:
[astevaihtelu]
koko ko o 'o
[taivutus]
nimentö ko+ko+
omistusliite ko+ko+ni
omanto_n ko+o+n
osanto_A ko+ko+a
olento_nA ko+ko+na
tulento_ksi ko+o+ksi
sisäolento_ssA ko+o+ssa
...
ja 01valo.txt
[astevaihtelu]
valo "" ""
aalto to lo
alku ku u
anto to no
apu pu vu
hanko ko go
hattu tu u
hinku ku gu
hoppu pu u
kaarto to ro
kippo po o
kumpu pu mu
laatu tu du
lepo po vo
leuto to do
liitto to o
lintu tu nu
luku ku vu
ruoko ko 'o
sampo po mo
tiuku ku 'u
verkko ko o
[taivutus]
nimentö aal+to+
omistusliite aal+to+ni
omanto_n aal+lo+n
osanto_A aal+to+a
olento_nA aal+to+na
tulento_ksi aal+lo+ksi
sisäolento_ssA aal+lo+ssa
sisäeronto_stA aal+lo+sta
sisätulento_Vn aal+to+on
ulko_olento_llA aal+lo+lla
...
Nyt ei ast-tiedostoja tarvittaisi, ja yhteen taivutusluokkaan liittyvä
informaatio olisi kätevästi yhdessä tiedostossa. Itse asiassa työtä tulee
tässä vähemmän, koska astevaihteluiden kuvauksista jää yksi sarake
tarpeettomana pois.
> Tiedostossa ohjeet/taivutus.tex on taulukko Nykysuomen sanakirjan ja
> Suomen kielen sanakirjan taivutuskaavojen eroista. Osa huomautuksista
> on jo vanhentuneita, mutta voiko taulukkoa käyttää dokumentin
> lähtökohtana? Se on LaTeX-muodossa, mutta sen voi muuttaa HTML:ksi.
Kyllä sitä minun puolestani voi käyttää. Dokumentaation lisensseistä meillä ei
ole tosin vielä ollut puhetta. Minulle käy siinäkin oikeastaan mikä tahansa,
kunhan lisenssi on GPL-yhteensopiva (tai "lisenssi X + GPL" -kaksoislisenssi)
jotta dokumenteista voi huoletta tehdä GPL:n alaisia ohjelmia siinäkin
tapauksessa, että dokumentti itsessään sisältää toteutettavan ohjelman
oleelliset algoritmit.
Teemu: käykö sinulle, että tähän mennessä tekemämme docs-hakemiston ohjeet
lisensoidaan vaikkapa yhdistelmällä "GPL v2 (tai uudempi) + Creative Commons
Attribution-ShareAlike 2.5 (tai uudempi)"? Tuon yhdistelmän pitäisi olla
riittävä kaikkeen järkevään käyttöön.
> Onko niin, että Joukahaisessa sanoilla voi olla vain kaksi
> taivutusluokkaa, nykyinen (suunnilleen Suomen kielen perussanakirja,
> PS) ja historiallinen (Nykysuomen sanakirja, NS)?
Taivutusluokkia (jotka ovat pohjimmiltaan vain tekstikenttiä) voi lisätä
vapaasti tarpeen mukaan.
> Mitä tapahtuu, jos
> saamme käyttöömme ajantasaisen taivutusluokituksen?
Riippuu vähän siitä, mitä tuo uusi luokitus sisältää. Yksi hyvin todennäköinen
mahdollisuus on tosiaankin se, että sen sisältämät tiedot siirretään omaan
kenttäänsä Joukahaiseen, koska tämän voi tehdä suurelta osin automaattisesti
(homonyymit tuottavat vähän ongelmia). Tästä uudesta kentästä tulisi
luultavasti ei-muokattava, tai ainakin suositeltaisiin ettei siihen tehtäisi
muutoksia ilman painavaa syytä. Ja sitten joillakin automaattisilla hauilla
tutkisimme, missä kohdin uusi luokitus ja nykyinen "taivutusluokka" olisivat
keskenään ristiriidassa ja tekisimme tarvittavat korjaukset. Eipä kuitenkaan
kannata enempää spekuloida tämän asian kanssa ennen kuin on varmaa, että
tosiaankin saamme sen ajantasaisen luokituksen jostain...
Tarkoitus on kuitenkin pitää nykyistä "taivutusluokka"-kenttää jatkuvasti ajan
tasalla uusimpien suositusten mukaan. Useamman kuin yhden historiallisen
taivutusluokan säilyttäminen on toki mahdollista, mutta se edellyttäisi
kuitenkin tarkempia määritelmiä (ainakin vuosikymmenen tarkkuudella) sille,
minkä ajankohdan luokituksesta on kyse. Joka tapauksessa historiallista
tietoa ei häviä, koska tietokannasta otetaan päivittäin kopioita, ja
tarkoituksenani on säilyttää tasaisin aikavälein otettuja kopioita myös
myöhempää käyttöä varten. Joukahaisen ohjeissa on muuten nykyään kerrottukin,
kuinka noita tietokantakopioita voi käsitellä. Vanhaa tietoa voi siis
suhteellisen helposti palauttaa takaisin Joukahaiseen, vaikka sitä olisi
sieltä muokkausten takia hävinnyt.
> Yllä oleva ei tietenkään tarkoita sitä, että jokaisen sanan
> taivutusluokka pitäisi tarkistaa n:stä eri lähteestä, vaan sitä, että
> olisi hyvä, jos Joukahaisen sanastossa yhdellä sanalla voisi olla
> useampi kuin kaksi taivutusta niin kuin Joukahaisessa käsittääkseni
> yhdellä sanalla voi olla useampi kuin yksi kirjoitusasu.
> Taivutusluokkia voi sitten lisätä tarpeen mukaan.
Tämä on itse asiassa oikein hyvä ajatus, ainakin rinnakkaisten taivutusten
käsittelyn kannalta. Nythän on niin, että jos sanalla on kaksi nykyään
käytössä olevaa taivutuskaavaa, sanasta täytyy tehdä sanastoon erillinen
kopioi. Järkevämpään olisi kehittää Joukahaiseen uusi
tietotyyppi "moniarvoinen tekstikenttä", jota voisi sitten soveltaa sekä
taivutusluokille että kirjoitusasuille. Tämä tosin vaatii jonkin verran
ohjelmointityötä ja myös käyttöliittymän suunnittelua, sillä tuo nykyinen
kirjoitusasujen editointiliittymä on liian kömpelö käytettäväksi
taivutusluokkien käsittelyyn 99 prosentissa tapauksista, joissa sanalla on
vain yksi taivutusluokka.
> Myös sanoja pitää muuttaa taivutusluokasta toiseen. Toivottavasti tämä
> ei ole liian työlästä. Mikä on paras tapa luetteloida tällaiset sanat?
> Riittääkö diff-komennon tulostus?
Antaisitko ensin esimerkkejä tapauksista, joissa sanoja pitäisi siirtää
toiseen taivutusluokkaan? Näitä ei oikeastaan pitäisi olla kovin paljoa.
Siirto Suomi-malagasta Joukahaiseen tehtiin häviöttömästi (varmistin
diff-komennolla, että lex-tiedostojen sisältö ennen ja jälkeen siirron oli
merkilleen sama), ja tapaukset joissa taivutusluokkaa on vaihdettu on aina
tehty siksi, että entisessä luokassa oli jotain virheellistä. Jos tarkoitat
sitä, että sana saa Sukijan kannalta väärän luokan, niin silloin korjaukset
tehdään lisäämällä sanalle historiallinen taivutusluokka (tai jokin uusi
kenttä). Jos taas tarkoitat sitä, että Suomi-malagassa on luokkajakoa
muutettu, niin vastaava muutos täytyy todennäköisemmin tehdä
muunnosohjelmaan, ei itse sanatietueisiin. Tämä jälkimmäinen tapaus on
yleensä helppo korjata.
Harri
More information about the devel
mailing list