[hunspell-fi-devel] Tavutus
Harri Pitkänen
hatapitk at cc.jyu.fi
Thu Feb 9 20:39:44 EET 2006
On Thursday 09 February 2006 19:43, Jarkko Hietaniemi wrote:
> > Jarkko: sopisiko sinulle, että kopioimme suoraan tuon tekemäsi algoritmin
> > soveltuvin osin tavutuskomponenttiimme? Se tulisi LGPL-lisenssille, joten
> > tarvitsemme tähän sinun lupasi. Tosin joudumme kääntämään sen Perlistä
>
> LGPL ok, saatte lupani.
Hienoa, kiitos!
> >
> >> kaivosaukko
> >> syysilta
> >> öljysheikki
> >
> > Nuo kaksi ensimmäistä ainakin ovat mahdottomia saada varmasti oikein,
> > niiden tavutushan riippuu siitä miten niiden merkitys tulkitaan. Näitä
> > varten pitää varmaan tehdä poikkeuslista tai lisätä ne erikseen
> > Hunspell-sanastoon
>
> En usko että noita varten erikseen tarvitsee poikkeuksia listoihin.
>
> Perusongelmat noissa ovat
>
> (1) sana joka loppuu konsonanttiin on alkuosana
> (2) sana joka alkaa kahdella tai useammalla konsonantilla on loppuosana
Paitsi että emme voi tietää, kuuluvatko nuo kaksi ensimmäistä sanaa tuohon
ongelmatyyppiin (1). Ne voidaan tavuttaa oikein kahdella eri tavalla:
kai-vos-auk-ko (aukko kaivokseen) tai kai-vo-sauk-ko (jokin kuvitteellinen
eläin). Samoin syys-il-ta (ilta syksyllä) tai syy-sil-ta (jonkinlainen
silta). Jos turvaudumme morfologiseen analyysiin, saamme nuo molemmat
vaihtoehdot enkä näe ongelmaan muuta kuin kaksi toimivaa ratkaisua: joko
asetamme tavutuskohdat vain "varmoihin" paikkoihin eli käytämme joukkojen
leikkausta (kai-vosauk-ko ja syysil-ta) tai kokoamme poikkeuslistan näistä
tapauksista. Näin voidaan tehdä, koska järjellä ajateltuna on paljon
todennäköisempää, että oikeat tavutukset on kai-vos-auk-ko ja syys-il-ta eikä
tällaisia ongelmatapauksia varmaankaan kamalan montaa tavallisesta
kirjakielestä löydy. Toivottavasti en ole väärässä tässä asiassa :)
Tätä ongelmaa ei ole öljysheikissä (tai öljyšeikissä) eikä myöskään sanassa
hääyöaie. Niiden jako on yksikäsitteinen (ainakin siltä minusta vaikuttaa) ja
tiedot noista sanajaoista saamme käytännössä ilmaiseksi sitten, kun olemme
saaneet oikoluvun toimimaan. Tietysti sitä ennen nuo helposti menevät väärin,
mutta eihän meillä mihinkään kiire ole ...
Harri
More information about the devel
mailing list