[hunspell-fi-devel] Tavutus

Harri Pitkänen hatapitk at cc.jyu.fi
Thu Feb 9 20:39:44 EET 2006


On Thursday 09 February 2006 19:43, Jarkko Hietaniemi wrote:
> > Jarkko: sopisiko sinulle, että kopioimme suoraan tuon tekemäsi algoritmin
> > soveltuvin osin tavutuskomponenttiimme? Se tulisi LGPL-lisenssille, joten
> > tarvitsemme tähän sinun lupasi. Tosin joudumme kääntämään sen Perlistä
>
> LGPL ok, saatte lupani.

Hienoa, kiitos!

> >
> >> 	kaivosaukko
> >> 	syysilta
> >> 	öljysheikki
> >
> > Nuo kaksi ensimmäistä ainakin ovat mahdottomia saada varmasti oikein,
> > niiden tavutushan riippuu siitä miten niiden merkitys tulkitaan. Näitä
> > varten pitää varmaan tehdä poikkeuslista tai lisätä ne erikseen
> > Hunspell-sanastoon
>
> En usko että noita varten erikseen tarvitsee poikkeuksia listoihin.
>
> Perusongelmat noissa ovat
>
> (1) sana joka loppuu konsonanttiin on alkuosana
> (2) sana joka alkaa kahdella tai useammalla konsonantilla on loppuosana

Paitsi että emme voi tietää, kuuluvatko nuo kaksi ensimmäistä sanaa tuohon 
ongelmatyyppiin (1). Ne voidaan tavuttaa oikein kahdella eri tavalla: 
kai-vos-auk-ko (aukko kaivokseen) tai kai-vo-sauk-ko (jokin kuvitteellinen 
eläin). Samoin syys-il-ta (ilta syksyllä) tai syy-sil-ta (jonkinlainen 
silta). Jos turvaudumme morfologiseen analyysiin, saamme nuo molemmat 
vaihtoehdot enkä näe ongelmaan muuta kuin kaksi toimivaa ratkaisua: joko 
asetamme tavutuskohdat vain "varmoihin" paikkoihin eli käytämme joukkojen 
leikkausta (kai-vosauk-ko ja syysil-ta) tai kokoamme poikkeuslistan näistä 
tapauksista. Näin voidaan tehdä, koska järjellä ajateltuna on paljon 
todennäköisempää, että oikeat tavutukset on kai-vos-auk-ko ja syys-il-ta eikä 
tällaisia ongelmatapauksia varmaankaan kamalan montaa tavallisesta 
kirjakielestä löydy. Toivottavasti en ole väärässä tässä asiassa :)

Tätä ongelmaa ei ole öljysheikissä (tai öljyšeikissä) eikä myöskään sanassa 
hääyöaie. Niiden jako on yksikäsitteinen (ainakin siltä minusta vaikuttaa) ja 
tiedot noista sanajaoista saamme käytännössä ilmaiseksi sitten, kun olemme 
saaneet oikoluvun toimimaan. Tietysti sitä ennen nuo helposti menevät väärin, 
mutta eihän meillä mihinkään kiire ole ...

Harri



More information about the devel mailing list