[voikko-devel] [hunspell-fi-devel] Monikon -in-genetiivi / m:einä
Harri Pitkänen
hatapitk at cc.jyu.fi
Mon Aug 14 09:23:34 EEST 2006
On Monday 14 August 2006 07:23, Hannu Väisänen wrote:
> On Fri, Aug 11, 2006 at 09:16:12PM +0300, Teemu Likonen wrote:
> > Palautui taas mieleen tämä hieman liian väljä -in-genetiivin tunnistus.
> > Esimerkiksi
> > luku : lukuin
> > suku : sukuin
> > harppu : harppuin
> > -muodot tunnistetaan, vaikka moiset taitavat olla ns. mahdottomia.
>
> Suomi-malagan taivutuskaavat on tehty Nykysuomen sanakirjan mukaan, ja
> niissä on tällainen muoto monessa taivutustyypissä. Ratkaisu voisi
> olla se, että Suomi-malagan Voikko-version taivutuskaavat otetaan
> Suomen kielen perussanakirjasta eli jätetään monikon omanto -in pois
> niistä taivutuskaavoista, joissa sitä ei ole Perussanakirjassa. (Tuo
> ei ole ainoa sanakirjojen taivutuskaavojen ero.) Panenko työn alle?
Mielellään, kiitos :) Ilmoitapa kuitenkin tänne listalle löytämistäsi eroista
(minulla noita sanakirjoja ei ole, en voi itse tätä tutkia) niin voimme
varmistaa, että todella haluamme Voikkoon Suomen kielen perussanakirjan
taivutukset. Voihan olla, että emme halua niitäkään aivan orjallisesti joka
kohdassa noudattaa.
> > Metrin lyhenne toimii samalla tavalla yksikössä, mutta monikossa täytyy
> > lisätä vielä "e", koska metri-sana loppuu i:hin:
> >
> > m:eissä "metreissä"
> > m:eineen "metreineen"
> > m:einä "metreinä"
>
> Tämä ratkeaa sillä, että sanastoon lisätään päätteet "eissä",
> "eineen", "einä" jne, ja lisätään sääntö, että tällaiset päätteet
> voivat olla vain kaksoispisteen jäljessä. Indeksoinnissa asia on
> hoidettu niin, että kaksoispiste ja sen jäljessä olevat kirjaimet
> poistetaan ja indeksoidaan vain kaksoispisteen edellä oleva merkkijono
> "sanan" "perusmuotona" eli indeksointiohjelma ei tarkista, onko
> lyhenteessä mitään järkeä. Tämä on tarpeeksi hyvä indeksointiin....
Tässä en ole aivan varma, onko tarpeen aina hyväksyä noita "eissä" jne.
päätteitä. Pitäisi ensin miettiä, kuinka monessa paikassa noita ihan oikeasti
tarvitaan ("m:eissä" on sekin varmaan aika harvinainen, juoksevassa tekstissä
on ehdottomasti parempi kirjoittaa "metreissä"). Jos kyse on vain muutamasta
lyhenteestä niin sitten voisi riittää, että Voikkoa varten laitetaan ne
sanastoon erillisinä poikkeuksina. Indeksointia varten ei tietysti tarvitse
tehdä yhtään mitään kuten totesitkin.
Mitkä ovat suunnitelmasi Voikko- ja Sukija-versioiden yhdistämiseksi? Itse
olen aina silloin tällöin yrittänyt pienentää näiden versioiden välistä
diffiä ottamalla SVN:ään muutoksia julkaisemistasi beta-versioista.
Harri
More information about the devel
mailing list