[voikko-devel] Suomi-malagan taivutuskaavoista, Joukahaisen sanastosta

Hannu Väisänen hvaisane at joyx.joensuu.fi
Wed Nov 29 09:08:35 EET 2006


On Tue, Nov 28, 2006 at 08:12:43PM +0200, Harri Pitkänen wrote:
> Tuo ehdottamasi systeemi kyllä toimii, mutta pikkuisen sitä voisi vielä 
> parannella.

Kommentoin parannusehdotuksiasi myöhemmin.



> Nyt tuo alkaa jo hahmottua. Itse näkisin kyllä jotenkin helpommaksi, jos 
> ast-tiedostojen rivit siirrettäisiin osaksi txt-tiedostoja. Oli vähän vaikea 
> aluksi ymmärtää, että vaikkapa tiedoston 11pitkä.txt astevaihtelut löytyvät 
> tiedostosta 11koira.ast. Onko tuohon jokin erityinen syy, miksi ne on 
> laitettu erillisiin tiedostoihin ja vielä niin, että tiedostojen nimet eivät 
> aina vastaa toisiaan?

Lisäsin kaksi kappaletta tiedostoon taivutuskaavat/LUE.MINUT:

Tiedostojen numerot vastaavat toisiaan. Siis esim. tiedostojen 01*.txt
astevaihtelut ovat tiedostossa 01*.ast.

Astevaihtelu ja taivutus on kuvattu eri tiedostoissa työn
säästämiseksi. Esimerkiksi tiedostossa 01valo.ast on 24
astevaihtelukaavaa. Jos astevaihtelu kuvattaisiin tiedostoissa
01*.txt, niitä pitäisi olla 24 kappaletta. Nykyisellä järjestelmällä
tullaan toimeen neljällä tiedostolla: 01valo.ast ja 01koko.txt
01valo.txt 01vihko.txt.


> > Jotta Sukija-versio voisi jatkossa käyttää automaagisesti
> > Joukahaisen generoimaa sanastoa, sanaston generointiin
> > täytyy tehdä muutoksia. Miten tuo olisi parasta järjestää?
> 
> Varmaankin niin, että kirjoitat jonkinlaisen spesifikaation Sukijan 
> tarvitsemasta lisäinformaatiosta. Parasta olisi kirjoittaa se suoraan 
> html-muotoon siten, että sen voi laittaa muiden Joukahaisen ohjeiden 
> joukkoon. Käytännössä tuo tarkoittaa siis sitä, että kirjoitat määritelmän 
> kentän "Historiallinen taivutusluokka" eri arvojen merkitykselle. Jos 
> nykyinen menetelmä kelpaa, niin määritelmät menevät tyyliin
> 
>   Taivutusluokan "peruna" sanoilla voi olla historiallinen taivutusluokka
>   "pasuuna", joka tarkoittaa ...
> 


Tiedostossa ohjeet/taivutus.tex on taulukko Nykysuomen sanakirjan ja
Suomen kielen sanakirjan taivutuskaavojen eroista. Osa huomautuksista
on jo vanhentuneita, mutta voiko taulukkoa käyttää dokumentin
lähtökohtana? Se on LaTeX-muodossa, mutta sen voi muuttaa HTML:ksi.

Onko niin, että Joukahaisessa sanoilla voi olla vain kaksi
taivutusluokkaa, nykyinen (suunnilleen Suomen kielen perussanakirja,
PS) ja historiallinen (Nykysuomen sanakirja, NS)? Mitä tapahtuu, jos
saamme käyttöömme ajantasaisen taivutusluokituksen? Historiallista
taivutusta ei voi hävittää, koska sitä tarvitaan Sukija-versiossa eli
varmaan nykyinen-taivutusluokka korvattaisiin nykyisemmällä (-:
taivutusluokalla. Koska joidenkin sanojen taivutusluokat ovat
muuttuneet NS:n ja PS:n välillä, niin on luultavasti tapahtunut myös
PS:n ilmestymisen jälkeen, ja muutoksia tapahtuu varmaan
tulevaisuudessakin. Jos PS:n taivutusluokat korvataan nykyisillä
taivutusluokilla, Joukahaisesta häviää kielihistoria: tieto siitä,
että jotkut sanat ovat taipuneet eri tavalla eri aikoina.

Suomen kielessä voi siis olla sanoja, jotka ovat taipuneet yhdellä
tavalla NS:ssa, toisella tavalla PS:ssa, kolmannella tavalla nykyisin,
ja jotka voivat taipua neljännellä tavalla joskus tulevaisuudessa.
Tarvitaanko tätä tietoa missään? Kyllä! Koska Sukijan tavoite on
indeksoida kaikki mahdolliset suomenkieliset tekstit, sen pitäisi
tunnistaa myös kaikki mahdolliset taivutukset.

Yllä oleva ei tietenkään tarkoita sitä, että jokaisen sanan
taivutusluokka pitäisi tarkistaa n:stä eri lähteestä, vaan sitä, että
olisi hyvä, jos Joukahaisen sanastossa yhdellä sanalla voisi olla
useampi kuin kaksi taivutusta niin kuin Joukahaisessa käsittääkseni
yhdellä sanalla voi olla useampi kuin yksi kirjoitusasu.
Taivutusluokkia voi sitten lisätä tarpeen mukaan.

Toisaalta tämä ei ole mitenkään kiireinen asia, sillä taivutusluokkia
vaihtavia sanoja lienee prosenttisesti loppujen lopuksi aika vähän.


> Muutan sitten sanaston generointia tekemiesi määrittelyjen 
> mukaisesti.

Myös sanoja pitää muuttaa taivutusluokasta toiseen. Toivottavasti tämä
ei ole liian työlästä. Mikä on paras tapa luetteloida tällaiset sanat?
Riittääkö diff-komennon tulostus?



More information about the devel mailing list