[hunspell-fi-devel] Tavutus
Harri Pitkänen
hatapitk at cc.jyu.fi
Thu Feb 9 12:06:21 EET 2006
On Wednesday 08 February 2006 22:11, Jarkko Hietaniemi wrote:
> Moduli on hyvin simppeli, sen logiikka on Fred Karlssonin jostain
> opuksesta, en nyt tähän hätään muista mistä, pitäisi mennä hyllylle
> selailemaan. Peruslogiikka on siis kunnossa, mutta hyvää tavutustahan
> ei ilman sanalistoja ja tekoälyä (tai ainakin tarpeeksi hyvää vastaavaa
> heuristiikkaa) saa aikaan...
Jarkko: sopisiko sinulle, että kopioimme suoraan tuon tekemäsi algoritmin
soveltuvin osin tavutuskomponenttiimme? Se tulisi LGPL-lisenssille, joten
tarvitsemme tähän sinun lupasi. Tosin joudumme kääntämään sen Perlistä
C++:alle ja tekemään pieniä muutoksia. Eli meidän pitää lisätä mahdollisuus
käyttää sanat Hunspellin kautta jolloin saadaan tieto yhdyssanojen jaosta, ja
sitten tuo merkistöasia on korjattava niin, ettei erikoisempia merkkejä
sisältävään tekstiin tule tavurajoja hulluihin paikkoihin. Eikä ' -merkin
kohdaltakaan voi aina turvallisesti tavuttaa, esimerkiksi kun on taivutettu
Calais -> Calais'n. Mutta periaatteessa algoritmisi vaikuttaa niin hyvältä,
että jos voimme sitä käyttää, säästyisimme miettimästä itse samoja asioita
uudestaan.
> jonkinlaista klassikoitahan (testilistalle)
> ovat
>
> kaivosaukko
> syysilta
> öljysheikki
Nuo kaksi ensimmäistä ainakin ovat mahdottomia saada varmasti oikein, niiden
tavutushan riippuu siitä miten niiden merkitys tulkitaan. Näitä varten pitää
varmaan tehdä poikkeuslista tai lisätä ne erikseen Hunspell-sanastoon
muodossa kaivos|aukko ja syys|ilta. Öljysheikin kanssa ei pitäisi tulla
ongelmia kunhan saamme Hunspell-integroinnin toimimaan ja sanan "sheikki"
mukaan sanastoon. Laitan nämä sanat talteen myöhempää testausta varten.
Harri
More information about the devel
mailing list