[hunspell-fi-devel] Yhdyssanoista
Harri Pitkänen
hatapitk at cc.jyu.fi
Thu Nov 24 17:47:18 EET 2005
Tämänpäiväistä keskustelua seurattuani tulin siihen tulokseen, että ehkäpä
olisi hyvä olla olemassa mekanismi, joka sallisi poikkeavien tai muuten
hankalien yhdyssanojen lisäämisen suoraan sanastoon. Toteutin tämän
menetelmän, ja se toimii nyt niin, että yhdyssanan voi lisätä, mutta sanaraja
pitää merkitä pystyviivalla. Esimerkkinä sanastossa on nyt punatulkku:
puna|tulkku subst-p-av1
Mikäli sanaan kuuluisi kieliopin mukaisesti yhdysviiva, niin silloin laitetaan
se yhdysviiva myös sanastoon, ja pystyviivaa ei tarvita. Käytännössä
kuitenkaan en keksinyt yhtään esimerkkiä tällaisesta yhdysviivan
tarvitsevasta ongelmatapauksesta, joten niitä ei vielä voi oikeasti lisätä.
Kunhan joku keksii esimerkkitapauksen, niin korjaan sitten asian.
Seuraavaksi pitäisi listata jonnekin sääntöjä, joiden mukaiset yhdyssanat
tullaan luomaan automaattisesti, eli joita ei edelleenkään pidä sanastoon
lisätä. Ehdotan aluksi seuraavia tapauksia:
- Substantiivi yksikön nominatiivissa + substantiivi (mikä tahansa muoto, voi
olla myös yhdyssana)
Esimerkkejä: pihakuusi, pihakuusessa, taloruokakirstu
- Substantiivi yksikön genetiivissä + substantiivi (mikä tahansa muoto, voi
olla myös yhdyssana)
Esimerkkejä: koirankasvattaja, pöydänsilityslaitos
- Substantiivi monikon genetiivissä + substantiivi (mikä tahansa muoto, voi
olla myös yhdyssana)
Esimerkkejä: kansainvaellus, uunienlakaisija
Eli siis näilläkin säännöillä tunnistetaan tietysti monia täysin järjettömiä
sanoja, mutta uskoisin ettei tälle asialle varmaan voi tehdä juuri mitään.
Näin varmaan toimivat muutkin oikolukuohjelmat, tosin asiaa olisi hyvä
tutkiskella. Minulla itselläni ei ole muuta kuin Soikko, ja se näyttäisi
tunnistavan muun muassa seuraavanlaisia hirveyksiä:
muutakoiso muutako takoiso muusuu muurihkama katoiso juoksuiso
juoksukeltainen huoneiso lamppuiso takoi so muupullea
Hyvinkin kummalliset sanat näyttävät siis Soikolle kelpaavan. Voisi olla hyvä
tehdä testidokumentti, johon listattaisiin esimerkkejä erityyppisistä
yhdistelmistä ja sitten oikoluettaisiin sitä Soikolla, Wordilla yms. Se voisi
antaa jonkinlaista kuvaa siitä, millaiseen tunnistamistarkkuuteen ylipäätään
on järkevää pyrkiä.
Harri
More information about the devel
mailing list