[hunspell-fi-devel] Tavutus

Harri Pitkänen hatapitk at cc.jyu.fi
Thu Feb 9 12:06:21 EET 2006


On Wednesday 08 February 2006 22:11, Jarkko Hietaniemi wrote:
> Moduli on hyvin simppeli, sen logiikka on Fred Karlssonin jostain
> opuksesta, en nyt tähän hätään muista mistä, pitäisi mennä hyllylle
> selailemaan.  Peruslogiikka on siis kunnossa, mutta hyvää tavutustahan
> ei ilman sanalistoja ja tekoälyä (tai ainakin tarpeeksi hyvää vastaavaa
> heuristiikkaa) saa aikaan...

Jarkko: sopisiko sinulle, että kopioimme suoraan tuon tekemäsi algoritmin 
soveltuvin osin tavutuskomponenttiimme? Se tulisi LGPL-lisenssille, joten 
tarvitsemme tähän sinun lupasi. Tosin joudumme kääntämään sen Perlistä 
C++:alle ja tekemään pieniä muutoksia. Eli meidän pitää lisätä mahdollisuus 
käyttää sanat Hunspellin kautta jolloin saadaan tieto yhdyssanojen jaosta, ja 
sitten tuo merkistöasia on korjattava niin, ettei erikoisempia merkkejä 
sisältävään tekstiin tule tavurajoja hulluihin paikkoihin. Eikä ' -merkin 
kohdaltakaan voi aina turvallisesti tavuttaa, esimerkiksi kun on taivutettu 
Calais -> Calais'n. Mutta periaatteessa algoritmisi vaikuttaa niin hyvältä, 
että jos voimme sitä käyttää, säästyisimme miettimästä itse samoja asioita 
uudestaan.

> jonkinlaista klassikoitahan (testilistalle)
> ovat
>
> 	kaivosaukko
> 	syysilta
> 	öljysheikki

Nuo kaksi ensimmäistä ainakin ovat mahdottomia saada varmasti oikein, niiden 
tavutushan riippuu siitä miten niiden merkitys tulkitaan. Näitä varten pitää 
varmaan tehdä poikkeuslista tai lisätä ne erikseen Hunspell-sanastoon 
muodossa kaivos|aukko ja syys|ilta. Öljysheikin kanssa ei pitäisi tulla 
ongelmia kunhan saamme Hunspell-integroinnin toimimaan ja sanan "sheikki" 
mukaan sanastoon. Laitan nämä sanat talteen myöhempää testausta varten.

Harri



More information about the devel mailing list