[voikko] Tiedoksi Sukija-sovellus: Puheenvuorot.kansanmuisti.fi (ja hiukan sanoja)

Harri Pitkänen hatapitk at iki.fi
Mon Nov 7 21:50:18 EET 2011


On Monday 07 November 2011, Tuomas Salo wrote:
> Joskus mietityttää, minkä verran ja minkälaisiin asioihin Voikkoa ja
> Sukijaa käytetään. Oma korteni kekoon:
> 
> http://puheenvuorot.kansanmuisti.fi/

Todella hieno palvelu, ja mukavaa, että kerroit siitä. Olisi tosiaan mukavaa, 
jos enemmänkin kuulisimme näistä käyttökohteista. Itsekään en osaa kovin hyvin 
sanoa, kuinka paljon ja missä kaikkialla Voikkoa tai Sukijaa käytetään.

Saan silloin tällöin yhteydenottoja lähinnä yrityksistä, jotka käyttävät tai 
haluaisivat käyttää Voikkoa johonkin. Nämä vain eivät juuri koskaan halua 
tulla julkisuuteen sovellustensa kanssa. Suurin osa yhteydenotoista tulee 
Suomesta pieniltä, lähinnä www-sovelluksia kehittäviltä firmoilta. Nämä 
kyselevät tyypillisesti Voikon käytöstä PHP-sovelluksissa, mistä voisi 
päätellä, että PHP-rajapinta Voikkoon olisi aika kova juttu monelle (sitähän 
meillä ei vielä ole). Kyseiset firmat eivät yleensä kerro edes minulle, mitä 
ovat Voikolla tekemässä. Kysymyksistä olen päätellyt, että tavutusta, 
oikolukua ja jotain kotikutoista indeksointisovellusta on todennäköisesti 
väsätty.

Ulkomailta kysymyksiä on tullut Ruotsista, Virosta ja Yhdysvalloista. Nämä 
ovat kaikki olleet yrityksistä, jotka ovat olleet liittämässä Voikkoa johonkin 
sovellukseensa oikolukutoiminnon takia, ja ovat kyselleet jotain pientä 
lisätietoa asian suhteen.

Suomessa yliopistoissa ja tutkimuslaitoksissa on myös käytetty Voikkoa apuna 
muutamassa projektissa, ja näistä onneksi on tällä listalla jonkin verran 
saatukin tietoa.

Selkeämmät ohjeet kehittäjille ja viimeistellympi "SDK" luultavasti lisäisi 
kiinnostusta. Täytyy myöntää, että nykyisillä ohjeilla kynnys saada mitään 
toimivaa aikaiseksi saattaa olla turhan korkea, ellei uskalla kysyä apua.

> - Perusta-palvelun käyttämä sanoihinjakamiskoodi on melko simppeli, eikä
> osaa käsitellä esim. "sosiaali- ja terveysministeri"-tapausta.
> Hätäratkaisuna nämä tapaukset ositetaan kolmeksi sanaksi (sosiaali, ja,
> terveysministeri), mikä tietysti on virheellistä mutta ehkä parempi kuin
> ei mitään. Oikeinta olisi kai käsitellä tätä jonkinlaisena kokonaisuutena
> (samoin kuin monia muita käsitteitä), mutta sepä onkin aika paljon
> mutkikkaampi juttu.

Tätä on Voikonkin tarpeisiin pian ryhdyttävä kehittämään. Idiomit ja 
moniosaiset nimet ovat yksi suurimpia ongelmien aiheuttajia nykyisessä 
kieliopin tarkistimessamme. Ongelma ei tosiaan ole ihan helppo, mutta 
luulisin, että kohtuullisella vaivalla tätäkin voisi jotenkin edistää.

>   - sitten ehkä laitokset ja yhtiöt, yhteisöt yms. (esim. Itella, Stakes,
> Fortum, Tekes, Valvira, Evira, Destia, Teliasonera, Amnesty, Greenpeace,
> Natura)

Voisin vihdoin lisätä Joukahaiseen kategorian yritysten, yhteisöjen ja 
tuotteiden nimille. Näin niitä olisi mahdollista käyttää ainakin Sukijassa ja 
Voikon erikoissanastoissa. Myöhemmin voisi miettiä, kannattaako niitä ottaa 
mukaan myös Voikon perussanastoon.

> 
>   - paikannimistä yleisimpiä ovat tietysti johonkin sopimukseen liittyvät
> tai muuten poliittisesti värittyneet: Ottawan sopimus, Nizzan sopimus,
> Vuotos, Johannesburg
> 
>   - lisäksi löytyi ainakin muutama melko oikea sana: etyj, EY-tuomioistuin
> (vanhentunut nimitys), Maamme-laulu, toistakymmentätuhatta (yms),
> työssäkäyvä, korvamerkitä, viisinkertainen, windfall-vero (ja
> windfall-voitto jne), pidättäydytään (Voikko tunnistaa, Sukija ei?),
> pääomittaminen, eurooppaministeri, työssäjaksaminen, käteenjäävä,
> yt-neuvottelut, kankkulan (kaivoon), pohdituttaa
> 
>   - ei-ehkä-ihan-sanoja: sinällänsä, jolloinka, vastuuttaa, kohtaantuvat,
> edustautuminen, kohtaanto-ongelma (ks.
> http://www.hs.fi/kotimaa/artikkeli/Kohtaanto-ongelma++ty%C3%B6voimatoimist
> ossa/HS20070124SI1YO0130t), prikulleen, keskustelutti, joustavoitetaan,
> ympärivuotistaminen, ongelmatiikkaan (huh...)

Katson nämä jossain välissä läpi ja lisään sanastoon.

Harri



More information about the voikko mailing list