[hunspell-fi-devel] Sukija ja suomi-malaga versio 0.5 UTF-8
Harri Pitkänen
hatapitk at cc.jyu.fi
Wed Apr 26 22:06:18 EEST 2006
On Wednesday 26 April 2006 14:09, Hannu Väisänen wrote:
> On Mon, Apr 24, 2006 at 05:44:09PM +0300, Harri Pitkänen wrote:
> > Siellä on yksi uusikin, 05turhia_sanoja.diff. Tämä poistaa seuraavat
> > sanat:
>
> Voin lisätä suomi-malagaan mahdollisuuden hylätä tiettyjä sanoja, jos
> voikko-lippu on päällä. Nämä sanat pitää tietysti merkitä sanastoon
> samalla tavalla kuin sanat, jotka voivat olla vain yhdyssanojen
> jälkiosana. Yhdyssanojen merkitseminen tulee olemaan seuraavassa
> versiossa.
Yhdyssanojen merkitseminen on hyvä, mutta tuo toinen ominaisuus (sanojen
hylkääminen kokonaan voikko-lipun kanssa) ei välttämättä ole tarpeen.
Oikolukua varten tulemme joka tapauksessa generoimaan nimisanat, adjektiivit
ja verbit tietokannasta, jolloin voimme yksilöidä tarkasti mitä sanoja otamme
mukaan ja mitä emme. Tämä on välttämätöntä myös erikoisalojen sanastojen
käsittelyä varten.
Olen myös miettinyt sitä, miten itse sanamuodostussääntöjen puolella saisimme
parhaiten toteutettua oikoluku- ja indeksointisovellusten erityissäännöt niin
että Suomi-Malagan koodi pysyisi mahdollisimman helppolukuisena eikä siitä
tarvitsisi tehdä kokonaan eri versioita näitä käyttötarkoituksia varten. Voin
olla väärässä (korjaa jos olen) mutta näyttäisi siltä, että Malaga ei osaa
optimoida koodia käännösvaiheessa, joten kaikki Malagan ehtolauseilla
toteutetut säännöt jättävät ylimääräistä koodia oikoluvun suorituksen
hidasteeksi. Jos näin tosiaan on, voisi olla hyödyllisempää toteuttaa
jonkinlainen C-tyylinen esikääntäjä, jonka läpi Malaga-kieliset lähdekoodit
ajettaisiin ennen malmake-komennon suorittamista. Sitten lähdekoodiin (ja
sanastoihinkin) voisi tehdä osia tyyliin
#ifdef voikko
[voikko-spesifiä koodia]
#endif
[yhteistä koodia]
#ifdef sanastaja
[indeksointispesifiä koodia]
#endif
Olisi tietysti mukava, jos C-esikääntäjää (cpp) voisi käyttää suoraan, mutta
ei voi koska # on malagassa kommenttimerkki ja "define" varattu sana, joten
noissa lähdekoodeissa on todella paljon #define -alkuisia rivejä jotka
aiheuttaisivat mielenkiintoista tuhoa jos cpp päästettäisiin niiden kimppuun.
Mutta eihän yksinkertaisen esikääntäjän kirjoittaminen vaikeaa ole vaikka sen
tekisin itsekin.
Kuulostaako hullulta vai järkevältä? Minulla on tässä muutaman seuraavan
viikon aikana tietynlaisia "maantieteellisiä rajoitteita" jotka estävät minua
pääsemästä CVS:ään (eli en voi järkevästi työskennellä libvoikon parissa) tai
tekemästä deb-paketointia, mutta vapaata aikaa sen sijaan on sitäkin enemmän.
Eli voisin jotain tällaista toteuttaa, mikäli siinä ei ole mitään
periaatteellisia ongelmia jotka tekisivät hommasta täysin hyödyttömän.
Harri
More information about the devel
mailing list