[voikko-devel] [hunspell-fi-devel] Monikon -in-genetiivi / m:einä

Harri Pitkänen hatapitk at cc.jyu.fi
Mon Aug 14 09:23:34 EEST 2006


On Monday 14 August 2006 07:23, Hannu Väisänen wrote:
> On Fri, Aug 11, 2006 at 09:16:12PM +0300, Teemu Likonen wrote:
> > Palautui taas mieleen tämä hieman liian väljä -in-genetiivin tunnistus.
> > Esimerkiksi
> >   luku : lukuin
> >   suku : sukuin
> >   harppu : harppuin
> > -muodot tunnistetaan, vaikka moiset taitavat olla ns. mahdottomia.
>
> Suomi-malagan taivutuskaavat on tehty Nykysuomen sanakirjan mukaan, ja
> niissä on tällainen muoto monessa taivutustyypissä. Ratkaisu voisi
> olla se, että Suomi-malagan Voikko-version taivutuskaavat otetaan
> Suomen kielen perussanakirjasta eli jätetään monikon omanto -in pois
> niistä taivutuskaavoista, joissa sitä ei ole Perussanakirjassa. (Tuo
> ei ole ainoa sanakirjojen taivutuskaavojen ero.) Panenko työn alle?

Mielellään, kiitos :) Ilmoitapa kuitenkin tänne listalle löytämistäsi eroista 
(minulla noita sanakirjoja ei ole, en voi itse tätä tutkia) niin voimme 
varmistaa, että todella haluamme Voikkoon Suomen kielen perussanakirjan 
taivutukset. Voihan olla, että emme halua niitäkään aivan orjallisesti joka 
kohdassa noudattaa.

> > Metrin lyhenne toimii samalla tavalla yksikössä, mutta monikossa täytyy
> > lisätä vielä "e", koska metri-sana loppuu i:hin:
> >
> > m:eissä   "metreissä"
> > m:eineen  "metreineen"
> > m:einä    "metreinä"
>
> Tämä ratkeaa sillä, että sanastoon lisätään päätteet "eissä",
> "eineen", "einä" jne, ja lisätään sääntö, että tällaiset päätteet
> voivat olla vain kaksoispisteen jäljessä. Indeksoinnissa asia on
> hoidettu niin, että kaksoispiste ja sen jäljessä olevat kirjaimet
> poistetaan ja indeksoidaan vain kaksoispisteen edellä oleva merkkijono
> "sanan" "perusmuotona" eli indeksointiohjelma ei tarkista, onko
> lyhenteessä mitään järkeä. Tämä on tarpeeksi hyvä indeksointiin....

Tässä en ole aivan varma, onko tarpeen aina hyväksyä noita "eissä" jne. 
päätteitä. Pitäisi ensin miettiä, kuinka monessa paikassa noita ihan oikeasti 
tarvitaan ("m:eissä" on sekin varmaan aika harvinainen, juoksevassa tekstissä 
on ehdottomasti parempi kirjoittaa "metreissä"). Jos kyse on vain muutamasta 
lyhenteestä niin sitten voisi riittää, että Voikkoa varten laitetaan ne 
sanastoon erillisinä poikkeuksina. Indeksointia varten ei tietysti tarvitse 
tehdä yhtään mitään kuten totesitkin.

Mitkä ovat suunnitelmasi Voikko- ja Sukija-versioiden yhdistämiseksi? Itse 
olen aina silloin tällöin yrittänyt pienentää näiden versioiden välistä 
diffiä ottamalla SVN:ään muutoksia julkaisemistasi beta-versioista.

Harri



More information about the devel mailing list