[voikko-devel] Sanojen taivutus Sukija- ja Voikko-versioissa, muutosehdotus

Hannu Väisänen hvaisane at joyx.joensuu.fi
Mon Dec 4 15:45:53 EET 2006


On Mon, Dec 04, 2006 at 02:33:01PM +0200, Harri Pitkänen wrote:
> Mutta onko varmasti järkevää huomioida pelkästään 
> historiallinen taivutusluokka kenttää jatko_sukija generoitaessa?

Tällä hetkellä kyllä, vaikka sanojen taivutus ei olekaan niin
yksinkertaista, kun olen ajatellut.

> Eikö
> Sukijan ole tarkoitus kyetä indeksoimaan myös nykykielistä tekstiä? Jos 
> kenttään "historiallinen taivutusluokka" koodataan tieto sanan kaikista 
> mahdollisista taivutuksista, niin silloin sitä ei kai kannattaisi enää kutsua
> historialliseksi taivutusluokaksi vaan Sukija-taivutusluokaksi.


Sukijan pitää todellakin pystyä indeksoimaan kaikki suomenkieliset
tekstit Mikael Agricolasta alkaen. (Ei hymiötä, koska tuo ei ollut
vitsi.) Elikkä Sukijan taivutusluokkien pitää olla unioni kaikista
mahdollisista taivutuksista. Mutta...

Nykysuomen sanakirjan (NS) ja Suomen kielen perussanakirjan (PS)
taivutuskaavojen suurin ero on se, että taivutukset ovat
yksinkertaistuneet. Esim. matala-tyypin taivutuksessa ei enää
hyväksytä muotoa matalata. Toisaalta, jos sanan taivutusluokka on
vaihtunut, sana on vain siirtynyt yksinkertaisempaan taivutusluokkaan.
Esim. tyyppien karahka ja kulkija ero on siitä, että tyyppi kulkija ei
hyväksy muotoja karahkojen, karahkoja.

Näyttää siis siltä, että PS:n taivutusluokat ovat NS:n
taivutusluokkien osajoukko ja PS:n taivutusluokilla voidaan jäsentää
myös nykykielistä tekstiä.

Toinen mutta: poikkeuksia on.

PS saattaa hyväksyä taivutusmuotoja, joita NS ei hyväksy. Esim.
ori-sanasta NS hyväksyy muodot oriiden, orihitten. PS hyväksyy muodot
oriiden ja orien, mutta ei orihitten. Suomi-malagan ori-taivutusluokka
hyväksyy kaikki kolme muotoa.

Tällaisia poikkeuksia on sen verran vähän (mutta niitä on tietysti
enemmän kuin miltä minusta nyt tuntuu), että jos historialliseen
taivutusluokkaan laittaa NS:n mukaisen taivutuksen (eli taivutuksen,
joka on Suomi-malagassa tuodussa sanastossa), sitä voi käyttää
indeksointiin.

Palaan asiaan myöhemmin.

> Historiallisen (tai Sukija-) taivutusluokitus tarvitsee silti jonkinlaisen 
> määrittelyn, koska siinä käytettävien taivutusluokkien nimet ja merkitykset 
> eivät varmaankaan ole aivan samat kuin nykyisessä taivutusluokituksessa.

Tehdään, tehdään, kunhan keritään. (-:



More information about the devel mailing list