[voikko-devel] Erisnimet ja yhdyssanat

Hannu Väisänen hvaisane at joyx.joensuu.fi
Fri Sep 29 08:56:48 EEST 2006


On Thu, Sep 28, 2006 at 08:26:46PM +0300, Harri Pitkänen wrote:
> On Thursday 28 September 2006 20:10, Teemu Likonen wrote:
> > Suomi-malagan sanat/paikannimet.lex ohjeistaa alun kommenteissa, että
> > "Vain ne paikannimet, jotka eivät ole myös tavallisia sanoja tai
> > yhdyssanoja."
> Tuo kommentti taitaa olla peräisin Sukija-versiosta,

Näin on. Koska Malaga ei tee eroa isojen ja pienien kirjaimien
välillä, on sinänsä turhaa laittaa sanastoon sanoja, joitten ainoa ero
on iso tai pieni alkukirjain, eikä sanastossa tarvita sellaisiakaan
sanoja, jotka tunnistetaan muutenkin yhdyssanoina. Tästä kyllä seuraa
Harrin mainitsemat ongelmat oikoluvussa, mutta eipä Suomi-malagaa
tehty alun perin oikolukuun, vaan sanojen muuttamiseen perusmuotoon
tiedostojen indeksointia varten.


> Hannu: aiotko vielä jatkossa ylläpitää Sukijaa varten tuota sanastoa käsin, 
> vai alatko käyttää Joukahaisesta generoitua versiota? Olen pyrkinyt parhaani 
> mukaan säilyttämään kaiken Sukijaa varten oleellisen tiedon myös 
> Joukahaisessa, joten periaatteessa tuon pitäisi onnistua.

Jos se vain on mahdollista. Sinä tiedät paremmin kuin minä, mitkä ovat
tällä hetkellä sanastojen erot. Yhdistäminen kannattaa tehdä silloin,
kun muukin koodi yhdistetään.

Tarvitaanko itse sanastossa muuta tietoa kuin se, että joitakin sanoja
ei ole Sukija"-versiossa ja joitakin taas ei Voikko"-versiossa?
Voidaanko muut erot käsitellä allomorfitiedostossa suomi.all tai
morfologiatiedostossa suomi.mor?

Sukija- ja Voikko-versioitten muita eroja on ainakin
- sanojen taivutus voi olla erilainen [1]
- Sukija-versio hyväksyy yleisimpiä kirjoitusvirheitä (kirjottaa, julkasta).
- Sukija-versio hyväksyy yhdyssanoja vapaammin kuin Voikko-versio

Suomi-malagaan pitäisi mielestäni jättää mahdollisuus lisätä sanastoon
sanoja menemättä Joukahaisen kautta. Tämä voidaan tehdä
yksinkertaisesti niin, että jätetään sanat-alihakemistoon tiedosto
omat.lex. Jakeluversiossa siinä on vain kommentti, että tähän voi itse
lisätä sanoja, joita ei ole sanastossa.


[1] Olen muuttamassa Suomi-malagaa niin, että allomorfitiedosto
suomi.all generoidaan taivutuskaavojen esimerkkisanoista.
Voikko-versioon generoidaan Suomen kielen perussanakirjan (PS)
mukainen taivutus ja Sukija-versioon yleensä Nykysuomen sanakirjan
(NS) taivutus, mutta jos sanojen taivutus on sanakirjoissa erilainen,
Sukija-versio hyväksyy molemmat taivutukset.

Esimerkiksi NS hyväksyy ori-sanalle taivutuksen oriin, oriina jne, PS
hyväksyy sen lisäksi myös orin, orina (eli sana taipuu samoin kuin
kori tai risti. Sukija-versio hyväksyy molemmat, ja lisäksi
Sukija-versio hyväksyy myös NS:n h:llisen taivutuksen orihin, orihina
jne.



More information about the devel mailing list