[hunspell-fi-devel] Sukija ja suomi-malaga versio 0.5 UTF-8

Wed Apr 26 22:06:18 EEST 2006

On Wednesday 26 April 2006 14:09, Hannu Väisänen wrote:
> On Mon, Apr 24, 2006 at 05:44:09PM +0300, Harri Pitkänen wrote:
> > Siellä on yksi uusikin, 05turhia_sanoja.diff. Tämä poistaa seuraavat
> > sanat:
>
> Voin lisätä suomi-malagaan mahdollisuuden hylätä tiettyjä sanoja, jos
> voikko-lippu on päällä. Nämä sanat pitää tietysti merkitä sanastoon
> samalla tavalla kuin sanat, jotka voivat olla vain yhdyssanojen
> jälkiosana. Yhdyssanojen merkitseminen tulee olemaan seuraavassa
> versiossa.

Yhdyssanojen merkitseminen on hyvä, mutta tuo toinen ominaisuus (sanojen 
hylkääminen kokonaan voikko-lipun kanssa) ei välttämättä ole tarpeen. 
Oikolukua varten tulemme joka tapauksessa generoimaan nimisanat, adjektiivit 
ja verbit tietokannasta, jolloin voimme yksilöidä tarkasti mitä sanoja otamme 
mukaan ja mitä emme. Tämä on välttämätöntä myös erikoisalojen sanastojen 
käsittelyä varten.

Olen myös miettinyt sitä, miten itse sanamuodostussääntöjen puolella saisimme 
parhaiten toteutettua oikoluku- ja indeksointisovellusten erityissäännöt niin 
että Suomi-Malagan koodi pysyisi mahdollisimman helppolukuisena eikä siitä 
tarvitsisi tehdä kokonaan eri versioita näitä käyttötarkoituksia varten. Voin 
olla väärässä (korjaa jos olen) mutta näyttäisi siltä, että Malaga ei osaa 
optimoida koodia käännösvaiheessa, joten kaikki Malagan ehtolauseilla 
toteutetut säännöt jättävät ylimääräistä koodia oikoluvun suorituksen 
hidasteeksi. Jos näin tosiaan on, voisi olla hyödyllisempää toteuttaa 
jonkinlainen C-tyylinen esikääntäjä, jonka läpi Malaga-kieliset lähdekoodit 
ajettaisiin ennen malmake-komennon suorittamista. Sitten lähdekoodiin (ja 
sanastoihinkin) voisi tehdä osia tyyliin

#ifdef voikko
[voikko-spesifiä koodia]
#endif
[yhteistä koodia]
#ifdef sanastaja
[indeksointispesifiä koodia]
#endif

Olisi tietysti mukava, jos C-esikääntäjää (cpp) voisi käyttää suoraan, mutta 
ei voi koska # on malagassa kommenttimerkki ja "define" varattu sana, joten 
noissa lähdekoodeissa on todella paljon #define -alkuisia rivejä jotka 
aiheuttaisivat mielenkiintoista tuhoa jos cpp päästettäisiin niiden kimppuun. 
Mutta eihän yksinkertaisen esikääntäjän kirjoittaminen vaikeaa ole vaikka sen 
tekisin itsekin.

Kuulostaako hullulta vai järkevältä? Minulla on tässä muutaman seuraavan 
viikon aikana tietynlaisia "maantieteellisiä rajoitteita" jotka estävät minua 
pääsemästä CVS:ään (eli en voi järkevästi työskennellä libvoikon parissa) tai 
tekemästä deb-paketointia, mutta vapaata aikaa sen sijaan on sitäkin enemmän. 
Eli voisin jotain tällaista toteuttaa, mikäli siinä ei ole mitään 
periaatteellisia ongelmia jotka tekisivät hommasta täysin hyödyttömän.

Harri