[voikko-devel] Yhdys- ja sivistyssanoista (oli =pii=nallinen (oli =piin=allinen))

Hannu Väisänen hvaisane at joyx.joensuu.fi
Thu Feb 15 09:16:43 EET 2007


On Wed, Feb 14, 2007 at 11:31:07AM +0200, Harri Pitkänen wrote:
> Asiaan liittyen kannattaa ehkä vilkaista saksan malaga-kuvausta:
> http://www.linguistik.uni-erlangen.de/~orlorenz/DMM/DMM.en.html
> 
> Ainakin Voikko-versiossa ajatuksenani on siirtyä käyttämään hyvin 
> samankaltaista malagan ja libvoikon välistä rajapintaa, josta on näytetty 
> esimerkki sanalle "Bundesverfassungsgericht". Analyysin weight-parametriä voi 
> sitten (kuten sivulla on sanottukin) käyttää tällaisissa tapauksissa 
> toteamaan, että "piinallinen" on paljon todennäköisempi analyysi 
> kuin "pii+nalli+inen". Voikko tarvitsee tätä ominaisuutta korjausehdotusten 
> laadun parantamisessa ja kieliopin tarkistuksessa, mutta kyllä siitä varmasti 
> indeksoinnissakin olisi apua.

Näin on:

echo piirakkoiden | voikkospell -s
W: piirakkoiden
S: piirakoiden
S: piirakkoisen
S: piirakkoien
S: piirakkoidean
S: piirakokoiden

echo piirakkoiden | voikkospell -s | gawk '{print $2}' | malaga -m suomi.pro
1: "piirakkoiden": unknown
2: "piirakoiden": "=piirakka"
3: "piirakkoisen": "=pii=rakkoinen"
4: "piirakkoien": "=pii=rakko=ien"
5: "piirakkoidean": "=pii=rakko=idea"
6: "piirakokoiden": "=pii=rako=koi"

Eli jos tiedämme, että piirakka on todennäköisin muoto,
indeksointitietokantaan ei tarvitse laittaa sanoja "piirakkoinen" jne.

Tämän testin perusteella näyttää siltä, että korjausehdotusten laatua
voi parantaa jättämällä yhdyssanat pois ehdotuksista, mutta silloin
väärin kirjoitettujen oikeitten yhdyssanojen korjaaminen menee kai
sekaisin.


Korjausehdotusten laadun parantaminen auttaa indeksoimaan paitsi
väärin kirjoitettuja sanoja luultavasti myös sivistyssanojen
vanhentuneita kirjoitusasuja, esim. obligatio, illusio, senaati;
obligatsioni ja illusioni ei luutavasti onnistu.

Toinen mahdollisuus on lisätä nämä sanat sanastoon, mutta olen siihen
liian laiska. (-:

Kolmas mahdollisuus on merkitä sivistyssanat sanastoon lipulla siv ja
lisätä vanhentuneet kirjoitusasut Suomi-malagan Sukija-versiossa
automaagisesti sanan lopun mukaan (aatio-loppuiset tunnistetaan myös
atio-loppuisina jne).


Tuota noin,

  grep 'aatio"' sanat/joukahainen.lex | more

näyttää, että kaikki aatio-loppuiset sanat paitsi kaatio ovat
sivistyssanoja eli atio-lopun voisi lisätä jo nyt (ja atsioni-lopun
myös!), Kaikista näistä sanoista ei kyllä välttämättä ole koskaan
käytetty atio-muotoa, eikä varsinkaan atsioni-muotoa.


Yhdyssanaongelman voin jättää huomiotta, kun palaan aluperäiseen
ideaani eli en yritäkään indeksoida yhdyssanoja niiden osien
perusmuodon mukaan (paitsi viivalliset yhdyssanat kuten esim.
linja-auto, *kirkko-isä). Kun indeksoin vain piinallisen, en tarvitse
piinata itsäni sillä, pitääkö indeksoida myös pii, nalli ja alli.
Toisaalta oikeat yhdyssanat olisi hyvä indeksoida myös osiensa
mukaan...



More information about the devel mailing list