[voikko-devel] voikkohyphenate: kai-vosauk-ko

Harri Pitkänen hatapitk at cc.jyu.fi
Thu Sep 28 19:50:44 EEST 2006


On Thursday 28 September 2006 19:20, Timo Juhani Lindfors wrote:
> Hei,
>
> debianin /etc/apt/sources.list -rivillä
>
> deb http://www.lemi.fi/voikko/debian/ sarge/
>
> haetun libvoikko-dev 1.1-0hf1:n mukana tuleva voikkohyphenate tavuttaa
> sanan "kaivosaukko" muodossa "kai-vosauk-ko". Onkohan tämä tunnettu
> ongelma?

Tämä on tunnettu asia, eikä mielestäni edes ongelma. Voikko pyrkii 
tavutuksessa varovaisuuteen [1], joten jos se havaitsee, että kaksiosaiselle 
yhdyssanalle on kaksi eri tulkintaa, se tavuttaa ainoastaan varmasti oikeista 
paikoista. Tällaisten sanojen (jotka eivät tosielämässä ole kovinkaan 
yleisiä) kohdalla käyttäjän oletetaan lisäävän itse tavutusvihje oikeaan 
kohtaan.

> En löytänyt www.hunspell-fi.orgista mistään bugiseurantajärjestelmää.
> Ilmeisesti bugit on tarkoitus raportoida vaan sähköpostilistalle?
> Bugiseurantajärjestelmä mahdollistaisi esimerkiksi vain tiettyjen
> kiinnostavien bugien seuraamisen ilman, että joudun tilaamaan koko
> devel-listaa.

Sourceforgen bugienseurantajärjestelmä on periaatteessa käytettävissä:
http://sourceforge.net/tracker/?group_id=156731&atid=800960

Mutta sitä ei vielä ole kukaan tähän päivään mennessä käyttänyt, enkä kyllä 
ole sitä ihmeemmin mainostanutkaan koska henkilökohtaisesti inhoan kyseistä 
järjestelmää :) Olet kyllä oikeassa siinä, että jotain tällaista pitäisi 
ottaa käyttöön. Nyt meillä on ollut todo-lista html-sivuna, jota minä ja 
Teemu olemme päivitelleet. Se on kyllä liian hankala menetelmä, jos projekti 
tästä vielä kasvaa.

Mielipiteitä tai vapaaehtoisia Bugzillan ylläpitäjiä?

> Vilkaisin libvoikko-dev -paketin lähdekoodeja ja ainakin pikasella
> vilkaisulla vaikuttaa siltä, että se ei käytä minkäänlaista sanalistaa
> vaan yrittää tavuttaa myös täysin olemattomia sanoja. Jos näin on niin
> onko jotain keinoa antaa voikolle vihjettä siitä ettei "kaivo-saukko"
> ehkä ole haluttu tavutus mutta "kaivos-aukko" on?

Tavutuksessa ei käytetä erillistä sanalistaa, vaan Suomi-malagaa kuten 
oikoluvussakin. Tämän vihjeen voi siis toteuttaa Suomi-malagassa, mutta 
sielläkin tällä hetkellä käytettävissä olevista keinoista yksikään ei ole 
erityisen tyylikäs. Olen viimeiseen saakka pyrkinyt välttämään 
poikkeuslistojen käyttöä.

Olemattomat sanat tavutetaan myös normaalien tavutussääntöjen mukaan, koska ne 
kuitenkin lähes aina antavat oikean tuloksen, eikä Voikon sanasto ole vielä 
niin kattava että olisi järkevää jättää tavuttamatta tunnistamattomat sanat. 
Tunnistamattomien sanojen tavutuksesta voidaan kyllä luopua joskus 
tulevaisuudessa, mutta muistaakseni useimmat "vaihtoehtoiset" 
tavutusohjelmatkin tavuttavat surutta myös tällaiset sanat.

Harri



[1] Ei kuitenkaan aivan täydelliseen varovaisuuteen: Voikkoa käyttävä ohjelma 
voi asettaa optiolle VOIKKO_INTERSECT_COMPOUND_LEVEL haluamansa arvon, ja 
yhdyssanojen tavurajat lasketaan tämän jälkeen seuraavalla tavalla:

There are two possible rules that can be applied when hyphenating compound 
words that can be split in more than one different way. We either take the 
intersection of (1) all possible hyphenations or (2) all hyphenations where 
the compound word has the minimal amount of parts (:= m) in it. The rule (1) 
is applied if and only if m > voikko_intersect_compound_level.
Default: 1



More information about the devel mailing list