[voikko-devel] Historiallisen taivutusluokan selitys

Harri Pitkänen hatapitk at cc.jyu.fi
Fri Dec 15 17:36:39 EET 2006


On Thursday 14 December 2006 12:48, Hannu Väisänen wrote:
> Miten olisi tämmöinen selitys. (Sukijan tietysti pitää hyväksyä sekä
> nykyinen, että historiallinen taivutus, mutta se on helppo hoitaa
> Suomi-malagassa ottamalla kenttien jatko_sukija ja jatko_voikko
> unioni.)
>
>
>
> Suuri osa Joukahaisen sanastosta on alun perin kerätty tiedostojen
> indeksointiin (http://joyds1.joensuu.fi/sukija/sukija.html).
> Vanhojen tekstien indeksointia varten sanojen taivutuksessa täytyy
> hyväksyä myös vanhentuneita, nykykieleen kuulumattomia taivutusmuotoja
> (esim. matala => matalata; nykykielessä matalaa). Koska Joukahaisen
> sanaston on tarkoitus olla käyttökelpoinen sekä oikoluvussa että
> tiedostojen indeksoinnissa, joillekin sanoille täytyy laittaa
> sanastoon kaksi eri taivutusta.
>
> Historiallinen taivutus -kenttä on taivutus joka sanalla oli
> Nykysuomen sanakirjassa.

Tämä on vähän ongelmallinen. Ainakaan määritelmäksi se ei kelpaa, koska 
historiallista suomea ei puhuttu Nykysuomen sanakirjaa lukien :) 
Historiallisen luokan semanttisen määritelmän tulisi sisältää viittaus 
johonkin ajanjaksoon tai muihin vastaaviin asioihin, jotka määrittelevät 
kentän käyttöalueelle selvät rajat. Lisäksi tarvitaan syntaksimääritelmä, eli 
miten taivutusluokat kuvataan. Kuten Teemu totesikin, Joukahaisen ja 
Suomi-malagan käyttämä luokitus ei ole sama, eikä todennäköisesti 
Suomi-malagan ja Nykysuomen sanakirjankaan. Molemmissa väleissä tapahtuu 
muunnoksia.

Joukahainen -> Suomi-malaga muunnos on määritelty tiedostossa
http://svn.sourceforge.net/viewvc/hunspell-fi/trunk/tools/pylib/hfconv.py?view=markup 
(ks. rivit 54-340). Tuolla siis muunnostaulukko on esitetty tietorakenteena, 
jossa on lista Joukahaisen luokkia. Listan alkiot ovat kolmiosaisia 
monikoita, joissa ensimmäisenä on Joukahaisen luokan nimi, toisena 
astevaihtelutyyppi ('sw' = vahva perusmuoto, 'ws' = heikko perusmuoto, '-' = 
ei astevaihtelua) ja kolmantena on lista Suomi-malagan luokista. Tässä 
listassa puolestaan alkiot ovat kolmi- tai neliosaisia monikoita. 
Ensimmäisenä on tarkka astevaihtelutyyppi (nimettynä astevaihtelussa 
lähtökonsonantin tai konsonanttiparin mukaan), toisena sanaa kuvaava 
säännöllinen lauseke jossa suluissa on alku-kenttään tuleva osa sanasta ja 
kolmantena jatko-kentän arvo. Jos monikossa on neljäs alkio, se sisältää 
listan sanaluokista joille tämä Suomi-malagan luokka käy.

Kun muunnos Joukahaisesta Suomi-malagaan tehdään, etsitään ensin oikea 
Joukahaisen luokka ja valitaan sen Suomi-malaga-luokkalistasta ensimmäinen 
alkio, joka sopii kyseiselle sanalle (siis astevaihtelutyypin, säännöllisen 
lausekkeen ja mahdollisten sanaluokkien perusteella). Jos sopivaa ei löydy, 
tulee tulostetiedostoon virhe # Malaga class not found for ...

Toivottavasti tämä vähän selventää asiaa.

Harri



More information about the devel mailing list