[hunspell-fi-devel] Erisnimet yhdyssanoissa

Harri Pitkänen hatapitk at cc.jyu.fi
Fri May 26 18:11:00 EEST 2006


On Thursday 25 May 2006 20:23, Teemu Likonen wrote:
> Hannu Väisänen kirjoitti:
> > Jos erisnimet eivät voi olla yhdyssanojen osina, sanastoon tarvitaan
> > Suomi (maan nimi) ja suomi (kielen nimi). Ja tietysti myös Aalto
> > (sukunimi) ja aalto, Marja (etunimi) ja marja ja niin pois päin.
>
> En tiedä, pääsinkö kunnolla vanhan keskustelun juonesta kiinni, mutta
> tuli mieleen huomio paikannimistä yhdyssanan osana. Teknisestä
> toteutuksesta en taaskaan tiedä.
>
> Japanin-matka
> Euroopan-kiertue
> Ruotsin-aika (esim. 'Ruotsissa aiemmin viettämäni aika')
> Ruotsin-laiva
>
> Kielitoimisto toteaa, että
>
>   Sellaiset erisnimen sisältävät ilmaukset, joissa erisnimen merkitys ei
>   ole kokonaan häipynyt taustalle. Näissä sekä iso- että
>   pienikirjaiminen kirjoitusasu ovat mahdollisia.
>
>     braillekirjoitus ~ Braillen (piste)kirjoitus; Pekkas-päivä ~
>     pekkaspäivä, Ruotsin-laiva ~ ruotsinlaiva; Suomen mestaruus ~
>     suomenmestaruus
>
> Näin ollen (tämäkin) asia hieman horjuu. Ehkä joskus voidaan
> kirjoittaa "euroopankiertue", mutta vielä nykyään se on harvinaista.

"Ruotsin-laiva" -tyyppiset yhdyssanat pitäisi ilman muuta hyväksyä 
automaattisesti. Tämä täytyy siis korjata. Tuo vaihtoehtoinen muoto on 
nähtävästi oikein vain tietyissä vakiintuneissa tapauksissa. Tosin on 
huomattava, että sitten kun kielet lisätään suomi-malaga:n sanastoon, 
hyväksytään "ruotsinlaiva" automaattisesti saman säännön nojalla millä jo nyt 
hyväksytään vaikkapa "oravannahka".

Lista tunnetuista ongelmista löytyy osoitteesta 
http://www.hunspell-fi.org/todo.html
Se jäi yllättävän lyhyeksi, vaikka selasinkin postituslistan arkiston parilta 
viime kuukaudelta ja yritin lisätä listalle kaikki ongelmat joista on ollut 
puhetta mutta joita ei vielä ole korjattu. Tämä on tietysti positiivinen 
asia, mutta olen varmaan myös unohtanut jotain tuolta listalta. Jos huomaatte 
jotain, niin ilmoittakaa. Listalta puuttuvia ongelmia ei todennäköisesti 
korjata jos en saa tietää niistä ajoissa.

Teemun tutkimista sanan "sukulainen" oudoista anagrammeista näyttää 
satunnaisotoksen perusteella suurin osa olevan sanasto-ongelmia, joihin en 
tässä vaiheessa halua vielä puuttua. Sanoja voi tutkiskella itsekin ja tehdä 
korjausehdotuksia sanastoon, jos haluaa. Otetaan esimerkiksi satunnaisesti 
valittu sana "lukuinsane":

$ malaga .voikko/suomi.pro
This is malaga, version 7.4.
Copyright (C) 1995 Bjoern Beutel.
This program is part of Malaga, a system for Natural Language Analysis.
You can distribute it under the terms of the GNU General Public License.
malaga> ma lukuinsane
(sulje avautuva ikkuna)
malaga> tree
(Avautuvassa ikkunassa valitse tree->Complete paths. Näkyviin jää vain 
löydetyt hyväksyvään tilaan päättyvät analyysipolut. Paina hiirellä polun 
lopussa olevaa kaksinkertaista ympyrää. Nyt näkyviin tulee ikkuna, josta 
sanan rakenne tulee kokonaisuudessaan näkyviin. Kyseessä on siis substantiivi 
(perusmuoto "luku") + monikon genetiivin sijapääte "in" + 
substantiivi "sane". Tämä on siis periaatteessa ihan kelvollinen sana, vaikka 
voisikin harkita halutaanko tuota "in"-sijapäätettä hyväksyä yhdyssanoissa 
automaattisesti. Sitä kyllä käytetään ("kansainvaellus") mutta uusia tämän 
tyyppisiä sanoja nykykielessä ei taideta enää muodostaa.

Tätä voi sitten toistaa muillekin sanoille: "ma tutkittava_sana" ja 
sitten "tree".

Harri



More information about the devel mailing list