[voikko-devel] Historiallisen taivutusluokan selitys
Harri Pitkänen
hatapitk at cc.jyu.fi
Fri Dec 15 17:36:39 EET 2006
On Thursday 14 December 2006 12:48, Hannu Väisänen wrote:
> Miten olisi tämmöinen selitys. (Sukijan tietysti pitää hyväksyä sekä
> nykyinen, että historiallinen taivutus, mutta se on helppo hoitaa
> Suomi-malagassa ottamalla kenttien jatko_sukija ja jatko_voikko
> unioni.)
>
>
>
> Suuri osa Joukahaisen sanastosta on alun perin kerätty tiedostojen
> indeksointiin (http://joyds1.joensuu.fi/sukija/sukija.html).
> Vanhojen tekstien indeksointia varten sanojen taivutuksessa täytyy
> hyväksyä myös vanhentuneita, nykykieleen kuulumattomia taivutusmuotoja
> (esim. matala => matalata; nykykielessä matalaa). Koska Joukahaisen
> sanaston on tarkoitus olla käyttökelpoinen sekä oikoluvussa että
> tiedostojen indeksoinnissa, joillekin sanoille täytyy laittaa
> sanastoon kaksi eri taivutusta.
>
> Historiallinen taivutus -kenttä on taivutus joka sanalla oli
> Nykysuomen sanakirjassa.
Tämä on vähän ongelmallinen. Ainakaan määritelmäksi se ei kelpaa, koska
historiallista suomea ei puhuttu Nykysuomen sanakirjaa lukien :)
Historiallisen luokan semanttisen määritelmän tulisi sisältää viittaus
johonkin ajanjaksoon tai muihin vastaaviin asioihin, jotka määrittelevät
kentän käyttöalueelle selvät rajat. Lisäksi tarvitaan syntaksimääritelmä, eli
miten taivutusluokat kuvataan. Kuten Teemu totesikin, Joukahaisen ja
Suomi-malagan käyttämä luokitus ei ole sama, eikä todennäköisesti
Suomi-malagan ja Nykysuomen sanakirjankaan. Molemmissa väleissä tapahtuu
muunnoksia.
Joukahainen -> Suomi-malaga muunnos on määritelty tiedostossa
http://svn.sourceforge.net/viewvc/hunspell-fi/trunk/tools/pylib/hfconv.py?view=markup
(ks. rivit 54-340). Tuolla siis muunnostaulukko on esitetty tietorakenteena,
jossa on lista Joukahaisen luokkia. Listan alkiot ovat kolmiosaisia
monikoita, joissa ensimmäisenä on Joukahaisen luokan nimi, toisena
astevaihtelutyyppi ('sw' = vahva perusmuoto, 'ws' = heikko perusmuoto, '-' =
ei astevaihtelua) ja kolmantena on lista Suomi-malagan luokista. Tässä
listassa puolestaan alkiot ovat kolmi- tai neliosaisia monikoita.
Ensimmäisenä on tarkka astevaihtelutyyppi (nimettynä astevaihtelussa
lähtökonsonantin tai konsonanttiparin mukaan), toisena sanaa kuvaava
säännöllinen lauseke jossa suluissa on alku-kenttään tuleva osa sanasta ja
kolmantena jatko-kentän arvo. Jos monikossa on neljäs alkio, se sisältää
listan sanaluokista joille tämä Suomi-malagan luokka käy.
Kun muunnos Joukahaisesta Suomi-malagaan tehdään, etsitään ensin oikea
Joukahaisen luokka ja valitaan sen Suomi-malaga-luokkalistasta ensimmäinen
alkio, joka sopii kyseiselle sanalle (siis astevaihtelutyypin, säännöllisen
lausekkeen ja mahdollisten sanaluokkien perusteella). Jos sopivaa ei löydy,
tulee tulostetiedostoon virhe # Malaga class not found for ...
Toivottavasti tämä vähän selventää asiaa.
Harri
More information about the devel
mailing list