[voikko] Paikannimet

Harri Pitkänen hatapitk at iki.fi
Wed Nov 26 19:25:14 EET 2014


Hei!

On 2014-11-26 11:33, Timo Tuominen wrote:
> Kiitos, tämä voisi olla oiva ratkaisu! Tutkin äsken vielä
> Joukahaista, josta tosiaan löytyy joitain yleisiä Helsingin
> paikannimiä. Mainitsemasi riski on kuitenkin varmasti todellinen,
> joten pitänee generoida oma lisäsanasto sen sijaan että täyttäisi
> Joukahaisen erisnimillä.

Tähän sanojen lisäämiseen on muutamia vaihtoehtoja. Mikä niistä on 
paras riippuu siitä, kuinka suuresta määrästä lisättäviä sanoja on kyse:

- Voimme lisätä sanat Joukahaiseen yleisyysluokalla 10 (harvinainen 
sana), jolloin ne jäävät pois normaalista oikolukusanastosta mutta ne 
saadaan mukaan morfologisen analyysin sanastoihin (sitähän tekin 
luultavasti käytätte). Tämä ratkaisu sopii, jos lisättäviä sanoja on 
korkeintaan muutamia satoja.

- Voimme myös lisätä Joukahaiseen erityisen lipun "paikannimi: 
Helsingin alueen paikannimi" ja sen lisäksi yleisyysluokan 10. Näin 
kannattaa tehdä, jos sanoja on muutamasta sadasta muutamaan tuhanteen. 
Logiikka sanaston valinnassa olisi sama kuin edellä, mutta erillinen 
lippu mahdollistaisi näiden sanojen mukaan ottamisen tai pois jättämisen 
eksplisiittisesti, jos siihen jossain sovelluksessa on tarvetta.

- Jos sanasto on hyvin laaja (enemmän kuin 2000 sanaa?), taivutuksia ei 
pystytä manuaalisesti tarkistamaan tai lähdesanastoihin liittyy 
GPL-epäyhteensopivia käyttöoikeusrajoituksia, kannattaa se jättää pois 
Joukahaisesta ja tuottaa sen sijaan erilliseksi XML-tiedostoksi. 
Tiedoston formaatti on hyvin yksinkertainen. Tässä esimerkki kaikista 
A:lla alkavista paikannimistä:

http://joukahainen.puimula.org/query/wlist?word=%5Ea&wordre=on&wordclass=&textaid=&textvalue=&flagon13=on&listtype=xml

Tällä hetkellä Suomi-malagan käännösvaiheessa ei ole mahdollista ottaa 
mukaan ylimääräisiä XML-sanastoja, mutta jos päädytte tähän ratkaisuun, 
voin helposti lisätä kyseisen option käännösskripteihin.

>
>> Olen kyllä sen verran tietämätön Voikon sielunelämästä, etten tiedä,
>> onko siinä mahdollisuus määritellä sanoille jonkinlainen 
>> oletustaivutus
>> sanan loppuosan mukaan. Silloin vain poikkeamat pitäisi käsitellä. 
>> Tosin
>
> Tätäkin voisi selvittää. Jos Voikko ei tätä tue, voimme tosiaan
> generoida jollakin skriptillä sanaston säännöllisesti taipuvista
> nimistä ja tutkia poikkeuksia erikseen.

Oletustaivutusta ei suoraan tueta. Monet paikannimet päättyvät 
kuitenkin yleisnimeen, jonka taivutus tunnetaan, joten tätä tietoa on 
mahdollista hyödyntää ja tosiaankin tehdä skripti taivutusten 
"arvaamiseksi". Helsingin yliopistossa on muistaakseni tuotettu jotain 
ohjelmakoodia taivutusluokituksen arvaamiseksi, mutta valitettavasti nuo 
luokitukset eivät sovi täsmälleen yksi yhteen Joukahaisessa käytetyn 
luokituksen kanssa, ja tulos taitaa joka tapauksessa aina vaatia 
tarkistamista.

Olen nyt flunssan kourissa ja vähän tokkurainen, mutta jos pystyt 
antamaan arvion tarvitsemanne sanaston suuruudesta, voisin ensi viikolla 
auttaa teitä tässä asiassa eteenpäin.

Harri


More information about the voikko mailing list