[voikko] Paikannimet
Harri Pitkänen
hatapitk at iki.fi
Wed Nov 26 19:25:14 EET 2014
Hei!
On 2014-11-26 11:33, Timo Tuominen wrote:
> Kiitos, tämä voisi olla oiva ratkaisu! Tutkin äsken vielä
> Joukahaista, josta tosiaan löytyy joitain yleisiä Helsingin
> paikannimiä. Mainitsemasi riski on kuitenkin varmasti todellinen,
> joten pitänee generoida oma lisäsanasto sen sijaan että täyttäisi
> Joukahaisen erisnimillä.
Tähän sanojen lisäämiseen on muutamia vaihtoehtoja. Mikä niistä on
paras riippuu siitä, kuinka suuresta määrästä lisättäviä sanoja on kyse:
- Voimme lisätä sanat Joukahaiseen yleisyysluokalla 10 (harvinainen
sana), jolloin ne jäävät pois normaalista oikolukusanastosta mutta ne
saadaan mukaan morfologisen analyysin sanastoihin (sitähän tekin
luultavasti käytätte). Tämä ratkaisu sopii, jos lisättäviä sanoja on
korkeintaan muutamia satoja.
- Voimme myös lisätä Joukahaiseen erityisen lipun "paikannimi:
Helsingin alueen paikannimi" ja sen lisäksi yleisyysluokan 10. Näin
kannattaa tehdä, jos sanoja on muutamasta sadasta muutamaan tuhanteen.
Logiikka sanaston valinnassa olisi sama kuin edellä, mutta erillinen
lippu mahdollistaisi näiden sanojen mukaan ottamisen tai pois jättämisen
eksplisiittisesti, jos siihen jossain sovelluksessa on tarvetta.
- Jos sanasto on hyvin laaja (enemmän kuin 2000 sanaa?), taivutuksia ei
pystytä manuaalisesti tarkistamaan tai lähdesanastoihin liittyy
GPL-epäyhteensopivia käyttöoikeusrajoituksia, kannattaa se jättää pois
Joukahaisesta ja tuottaa sen sijaan erilliseksi XML-tiedostoksi.
Tiedoston formaatti on hyvin yksinkertainen. Tässä esimerkki kaikista
A:lla alkavista paikannimistä:
http://joukahainen.puimula.org/query/wlist?word=%5Ea&wordre=on&wordclass=&textaid=&textvalue=&flagon13=on&listtype=xml
Tällä hetkellä Suomi-malagan käännösvaiheessa ei ole mahdollista ottaa
mukaan ylimääräisiä XML-sanastoja, mutta jos päädytte tähän ratkaisuun,
voin helposti lisätä kyseisen option käännösskripteihin.
>
>> Olen kyllä sen verran tietämätön Voikon sielunelämästä, etten tiedä,
>> onko siinä mahdollisuus määritellä sanoille jonkinlainen
>> oletustaivutus
>> sanan loppuosan mukaan. Silloin vain poikkeamat pitäisi käsitellä.
>> Tosin
>
> Tätäkin voisi selvittää. Jos Voikko ei tätä tue, voimme tosiaan
> generoida jollakin skriptillä sanaston säännöllisesti taipuvista
> nimistä ja tutkia poikkeuksia erikseen.
Oletustaivutusta ei suoraan tueta. Monet paikannimet päättyvät
kuitenkin yleisnimeen, jonka taivutus tunnetaan, joten tätä tietoa on
mahdollista hyödyntää ja tosiaankin tehdä skripti taivutusten
"arvaamiseksi". Helsingin yliopistossa on muistaakseni tuotettu jotain
ohjelmakoodia taivutusluokituksen arvaamiseksi, mutta valitettavasti nuo
luokitukset eivät sovi täsmälleen yksi yhteen Joukahaisessa käytetyn
luokituksen kanssa, ja tulos taitaa joka tapauksessa aina vaatia
tarkistamista.
Olen nyt flunssan kourissa ja vähän tokkurainen, mutta jos pystyt
antamaan arvion tarvitsemanne sanaston suuruudesta, voisin ensi viikolla
auttaa teitä tässä asiassa eteenpäin.
Harri
More information about the voikko
mailing list