[voikko] Paikannimet
Hannu Väisänen
Hannu.Vaisanen at uef.fi
Wed May 20 11:12:12 EEST 2015
ke, 2015-05-20 kello 08:49 +0300, Marko Laakso kirjoitti:
> Hei,
>
> Etsin Sukijan Malaga-kirjaston avulla sanojen perusmuotoja ja törmäsin
> muutamiin haastaviin erisnimiin. Monet tavalliset paikan nimet (mm.
> Tukholma ja Kiova) hoituvat jo nykyisin hyvin, mutta mm. Lahti ja
> Varkaus päätyvät kiusallisesti yleisnimiksi:
>
> $ echo "Lahden" | malaga -m suomi.pro
> 1: "Lahden": "lahti"
>
> $ echo "Varkauteen" | malaga -m suomi.pro
> 1: "Varkauteen": "varkaus"
>
> Toivoisin saavani tulokseksi samanlaisen listan kuin Nurmekselle:
> $ echo Nurmekseen | malaga -m suomi.pro
> 1: "Nurmekseen": "Nurmes"
> 1: "Nurmekseen": "nurmi"
Sukijassa tämä johtuu siitä, että alkuperäinen Malaga
(http://home.arcor.de/bjoern-beutel/malaga/), jota Sukija käyttää, ei
tee eroa isojen ja pienten kirjainten välillä. Voikon oikolukua varten
Harri on muistaakseni tehnyt Malagasta oman version, joka hoitaa monen
muun ongelman lisäksi myös tämän asian. Asian muuttaminen alkuperäisen
Malagan kanssa on niin työlästä, että en rupea tekemään sitä, koska
Voikon uusi vfst-morfologia on jo parempi kuin alkuperäinen
Suomi-Malagani.
>
> Huomasin, että asiaa on käsitelty tällä postituslistalla aiemmin viime
> vuonna
> (http://lists.puimula.org/pipermail/voikko/2014-November/002005.html).
> Tuolloin oli puhetta, että nimien käännösaikainen lisääminen voisi tulla
> mahdolliseksi. Onnistuukohan tämä nykyisin jollakin konstilla?
Joukahaisen sanastossa ovat jo erisnimet Lahti ja Varkaus, ongelmana on,
miten ne saadaan erotettua vastaavista yleisnimistä Sukijassa. Se ei ole
kovin vaikeaa vfst-morfologiassa.
Sukijassa voi jo käyttää vfst-morfologiaa, mutta haluamaasi tulostusta
siitä ei saa vielä irti (koska kukaan ei ole vielä kaivannut sitä :-).
Palaan asiaan.
More information about the voikko
mailing list