[hunspell-fi-devel] Sikamainen munakoiso

Jori Mantysalo jori at cs.uta.fi
Thu Nov 24 13:41:31 EET 2005


On Thu, 24 Nov 2005, Tuomo Koistinen wrote:

>> Sanastoon 'sika' ja siitä johdetaan 'sikamainen' jne.

>> tuoko sitten tarkoittaa että esim. 'mutakoiso' hyväksytään myös, jos
>> vain 'muta' on sanastossa?

> Ihan hyvä pointti. 'Mutakoiso' todennäköisesti olisi kirjoitusvirhe.

Aivan, jonka lisäksi se olisi sentyyppinen virhe, jonka voisi oikeasti
tehdä. Muita vastaavia löytyy yhdyssanoista vaikka miten paljon, esim.
"omenakuu". Taas toisaalta, eipä mikään näköpiirissä oleva tekniikka
mahdollista "Talo on punainen" vs. "Valo on punainen" -virheen
havaitsemista.

Pohdin voiko -mainen -virheitä tehdä oikeasti. Esim. 'talomainen' on aika
haettu sana, vaikka "Vaimoni isovanhempien ns. mökki on talomainen ja
oikesti se on heillä asuntona." onkin jotenkin mielekäs. 'Kattomainen' on
jo melkein mahdoton - mutta eipä kukaan tuollaista vahingossa
kirjoitakaan. Ongelmaksi tulee ainakin 'valomainen', koska minä voisin
helposti tehdä "valovoimainen" -sanan kanssa tuollaisen virheen.

> Lisäksi suomessa on paljon sanoja, jotka eivät esiinny missään muussa
> yhteydessä kuin tiettyjen yhdyssanojen jälkiosina: esim. 'tulkku'
> sanassa 'punatulkku'.

Nope, Google kertoo meille ensiksi että 'tulkut' on monikko sanasta
'tulku', joka on tiibetiläiseen uskontoon liittyvä juttu, ja toiseksi
että eripaksuisten tulkkujen avulla säädellään rakovalkeaa.
Viimeksimainitussa tapauksessa perussana lienee 'tulkku'.

Tästä nyt tulee jotenkin mieleen, että voisiko lopullinen oikoluku näyttää
kahdenlaisia värejä: punaisella selvä virhe mallia 'kisssat', ja
keltaisella sellainen joka kannattaa tarkistaa, esim. 'loihe' (onhan tuo
_periaatteessa_ normaali sana, mutta asiatekstissä ei varsin tavallinen
näin 2000-luvulla) ja 'valomainen' tms. vaikea johdos.

Mahdollisesti hieno ohjelma automaattisesti tunnistaisi epäilyttävän
yksittäisen virheen. Jos dokumentissa olisi 'tulkku' monta kertaa, tai
ainakin kerran 'tulkku' ja kerran 'tulkut', pääteltäisiin ettei siinä ole
virhettä. Sen sijaan yksittäisenä sanana se voi olla virhe, esim.
virheessä "puna tulkku".

Paljonko koodi monimutkaistuu, jos otetaan sallittu taivutusmuoto -bittejä
käyttöön? Eli esim. juuri -mainen -liite joko sallittaisiin tai
kiellettäisiin; tai ehkä monimutkaisemmassa mallissa annettaisiin arvo
joka voisi tarkoittaa siltä väliltä olevaa "epäilyttävä, tarkista".

Yhdyssanat tuntuvat muutenkin vaikeilta, kun asiaa ajattelen. 'Omenapuu'
on niin perussana kuin olla voi, 'päärynäpuu' käytännön tekstissä
harvinainen, 'mangopuu' todella harvinainen ja 'kamerapuu' mahdoton.
'Kuusipuu' esiintyy vain joululaulussa. 'Mäntypuu' ei perusmuodossa
esiinny, mutta "mäntypuinen pöytä" on käytössä, ilmeisesti kun "mäntyinen
pöytä" kuulostaa vähän samalta kuin "pihkainen pöytä" ja "pöytä mäntyä"
tuo mieleen armeijan "kengännauha, puolikengän, musta, 5 senttiä" -kielen.

-- 
Jori Mäntysalo
Laboratorioinsinööri
TAUCHI / Tietojenkäsittelytieteiden laitos / Tampereen yliopisto
Puh. 03-35518893, email jori at cs.uta.fi, kotisivu http://www.uta.fi/%7ejm58660/



More information about the devel mailing list