[hunspell-fi-devel] Yhdyssanoista

Harri Pitkänen hatapitk at cc.jyu.fi
Thu Nov 24 17:47:18 EET 2005


Tämänpäiväistä keskustelua seurattuani tulin siihen tulokseen, että ehkäpä 
olisi hyvä olla olemassa mekanismi, joka sallisi poikkeavien tai muuten 
hankalien yhdyssanojen lisäämisen suoraan sanastoon. Toteutin tämän 
menetelmän, ja se toimii nyt niin, että yhdyssanan voi lisätä, mutta sanaraja 
pitää merkitä pystyviivalla. Esimerkkinä sanastossa on nyt punatulkku:

puna|tulkku   subst-p-av1

Mikäli sanaan kuuluisi kieliopin mukaisesti yhdysviiva, niin silloin laitetaan 
se yhdysviiva myös sanastoon, ja pystyviivaa ei tarvita. Käytännössä 
kuitenkaan en keksinyt yhtään esimerkkiä tällaisesta yhdysviivan 
tarvitsevasta ongelmatapauksesta, joten niitä ei vielä voi oikeasti lisätä. 
Kunhan joku keksii esimerkkitapauksen, niin korjaan sitten asian.

Seuraavaksi pitäisi listata jonnekin sääntöjä, joiden mukaiset yhdyssanat 
tullaan luomaan automaattisesti, eli joita ei edelleenkään pidä sanastoon 
lisätä. Ehdotan aluksi seuraavia tapauksia:

- Substantiivi yksikön nominatiivissa + substantiivi (mikä tahansa muoto, voi
  olla myös yhdyssana)
  Esimerkkejä: pihakuusi, pihakuusessa, taloruokakirstu

- Substantiivi yksikön genetiivissä + substantiivi (mikä tahansa muoto, voi
  olla myös yhdyssana)
  Esimerkkejä: koirankasvattaja, pöydänsilityslaitos

- Substantiivi monikon genetiivissä + substantiivi (mikä tahansa muoto, voi
  olla myös yhdyssana)
  Esimerkkejä: kansainvaellus, uunienlakaisija

Eli siis näilläkin säännöillä tunnistetaan tietysti monia täysin järjettömiä 
sanoja, mutta uskoisin ettei tälle asialle varmaan voi tehdä juuri mitään. 
Näin varmaan toimivat muutkin oikolukuohjelmat, tosin asiaa olisi hyvä 
tutkiskella. Minulla itselläni ei ole muuta kuin Soikko, ja se näyttäisi 
tunnistavan muun muassa seuraavanlaisia hirveyksiä:

muutakoiso  muutako  takoiso muusuu muurihkama katoiso juoksuiso 
juoksukeltainen huoneiso lamppuiso takoi so muupullea

Hyvinkin kummalliset sanat näyttävät siis Soikolle kelpaavan. Voisi olla hyvä 
tehdä testidokumentti, johon listattaisiin esimerkkejä erityyppisistä 
yhdistelmistä ja sitten oikoluettaisiin sitä Soikolla, Wordilla yms. Se voisi 
antaa jonkinlaista kuvaa siitä, millaiseen tunnistamistarkkuuteen ylipäätään 
on järkevää pyrkiä.

Harri



More information about the devel mailing list