[voikko-devel] voikkohyphenate: kai-vosauk-ko
Harri Pitkänen
hatapitk at cc.jyu.fi
Thu Sep 28 19:50:44 EEST 2006
On Thursday 28 September 2006 19:20, Timo Juhani Lindfors wrote:
> Hei,
>
> debianin /etc/apt/sources.list -rivillä
>
> deb http://www.lemi.fi/voikko/debian/ sarge/
>
> haetun libvoikko-dev 1.1-0hf1:n mukana tuleva voikkohyphenate tavuttaa
> sanan "kaivosaukko" muodossa "kai-vosauk-ko". Onkohan tämä tunnettu
> ongelma?
Tämä on tunnettu asia, eikä mielestäni edes ongelma. Voikko pyrkii
tavutuksessa varovaisuuteen [1], joten jos se havaitsee, että kaksiosaiselle
yhdyssanalle on kaksi eri tulkintaa, se tavuttaa ainoastaan varmasti oikeista
paikoista. Tällaisten sanojen (jotka eivät tosielämässä ole kovinkaan
yleisiä) kohdalla käyttäjän oletetaan lisäävän itse tavutusvihje oikeaan
kohtaan.
> En löytänyt www.hunspell-fi.orgista mistään bugiseurantajärjestelmää.
> Ilmeisesti bugit on tarkoitus raportoida vaan sähköpostilistalle?
> Bugiseurantajärjestelmä mahdollistaisi esimerkiksi vain tiettyjen
> kiinnostavien bugien seuraamisen ilman, että joudun tilaamaan koko
> devel-listaa.
Sourceforgen bugienseurantajärjestelmä on periaatteessa käytettävissä:
http://sourceforge.net/tracker/?group_id=156731&atid=800960
Mutta sitä ei vielä ole kukaan tähän päivään mennessä käyttänyt, enkä kyllä
ole sitä ihmeemmin mainostanutkaan koska henkilökohtaisesti inhoan kyseistä
järjestelmää :) Olet kyllä oikeassa siinä, että jotain tällaista pitäisi
ottaa käyttöön. Nyt meillä on ollut todo-lista html-sivuna, jota minä ja
Teemu olemme päivitelleet. Se on kyllä liian hankala menetelmä, jos projekti
tästä vielä kasvaa.
Mielipiteitä tai vapaaehtoisia Bugzillan ylläpitäjiä?
> Vilkaisin libvoikko-dev -paketin lähdekoodeja ja ainakin pikasella
> vilkaisulla vaikuttaa siltä, että se ei käytä minkäänlaista sanalistaa
> vaan yrittää tavuttaa myös täysin olemattomia sanoja. Jos näin on niin
> onko jotain keinoa antaa voikolle vihjettä siitä ettei "kaivo-saukko"
> ehkä ole haluttu tavutus mutta "kaivos-aukko" on?
Tavutuksessa ei käytetä erillistä sanalistaa, vaan Suomi-malagaa kuten
oikoluvussakin. Tämän vihjeen voi siis toteuttaa Suomi-malagassa, mutta
sielläkin tällä hetkellä käytettävissä olevista keinoista yksikään ei ole
erityisen tyylikäs. Olen viimeiseen saakka pyrkinyt välttämään
poikkeuslistojen käyttöä.
Olemattomat sanat tavutetaan myös normaalien tavutussääntöjen mukaan, koska ne
kuitenkin lähes aina antavat oikean tuloksen, eikä Voikon sanasto ole vielä
niin kattava että olisi järkevää jättää tavuttamatta tunnistamattomat sanat.
Tunnistamattomien sanojen tavutuksesta voidaan kyllä luopua joskus
tulevaisuudessa, mutta muistaakseni useimmat "vaihtoehtoiset"
tavutusohjelmatkin tavuttavat surutta myös tällaiset sanat.
Harri
[1] Ei kuitenkaan aivan täydelliseen varovaisuuteen: Voikkoa käyttävä ohjelma
voi asettaa optiolle VOIKKO_INTERSECT_COMPOUND_LEVEL haluamansa arvon, ja
yhdyssanojen tavurajat lasketaan tämän jälkeen seuraavalla tavalla:
There are two possible rules that can be applied when hyphenating compound
words that can be split in more than one different way. We either take the
intersection of (1) all possible hyphenations or (2) all hyphenations where
the compound word has the minimal amount of parts (:= m) in it. The rule (1)
is applied if and only if m > voikko_intersect_compound_level.
Default: 1
More information about the devel
mailing list