[hunspell-fi-devel] Tilanneraportti
Harri Pitkänen
hatapitk at cc.jyu.fi
Thu Feb 16 21:22:03 EET 2006
Apuohjelmat
===========
Apuohjelmien kehittäminen CVS:ssä on nyt edennyt siihen vaiheeseen, että
substantiivit (poikkeavasti taipuvia lukuun ottamatta) toimivat jälleen kuten
vanhoillakin apuohjelmilla. Tai oikeastaan paremmin, sillä affiksitiedoston
korvaaminen paremmin suunnitellulla "taivutusmuototaulukolla" paljasti useita
pieniä virheitä vanhassa affiksitiedostossa, jotka olivat jääneet
huomaamatta. Nämä on nyt kaikki korjattu uudessa taulukossa, mutta vanhaa
affiksitiedostoa en enää korjaile (ei siis kannata odottaa päivityksiä tuonne
tiedostot-sivulle). Nämä uudet apuohjelmat ovat huomattavasti joustavampia.
Esimerkiksi seuraavantyylinen työkalu oli mahdollista toteuttaa niiden päälle
(komentoriviparametrien käsittely pois lukien) kahdeksalla rivillä
Python-koodia:
$ hf-inflect-word asiakas subst-as2-av2
nominatiivi asiakas
genetiivi asiakkaan
partitiivi asiakasta
translatiivi asiakkaaksi
essiivi asiakkaana
inessiivi asiakkaassa
elatiivi asiakkaasta
illatiivi asiakkaaseen
adessiivi asiakkaalla
ablatiivi asiakkaalta
allatiivi asiakkaalle
abessiivi asiakkaatta
nominatiivi_mon asiakkaat
genetiivi_mon asiakkaiden
genetiivi_mon asiakkaitten
partitiivi_mon asiakkaita
translatiivi_mon asiakkaiksi
essiivi_mon asiakkaina
inessiivi_mon asiakkaissa
elatiivi_mon asiakkaista
illatiivi_mon asiakkaisiin
adessiivi_mon asiakkailla
ablatiivi_mon asiakkailta
allatiivi_mon asiakkaille
abessiivi_mon asiakkaitta
instruktiivi_mon asiakkain
Viimesyksyisillä työkaluilla tämä olisi ollut huomattavasti työläämpää.
Bugi Hunspellin morfologisen analyysin osuudessa
================================================
Tämä bugi, jota yritimme selvittää tammikuussa, on tosiaankin hieman
epätriviaali. Németh László vastasi tänään näin:
> Unfortunatelly, I haven't synchronised then new COMPOUNDRULE
> function with the morphological analysis, yet. I will fix it
> in the next version of Hunspell.
>
> I will also rewrite the morphological data handling in the
> next couple of months.
Eli tälle asialle ei nyt kannata tehdä mitään, odotellaan että Németh saa
suunnittelemansa muutokset tehtyä ja edetään sitten niiden pohjalta.
Käytännössä tämä tarkoittaa sitä, että liitepartikkeleita ja yhdyssanoja ei
kannata vielä miettiä liikaa.
Suunnitelma helmi-maaliskuulle
==============================
Seuraavaksi yritän saada adjektiivit toimimaan uuden mallin mukaisilla
apuohjelmilla, ja toteutan sen tavutusalgoritmin. Sitten olisi tarkoitus
julkaista jonkinlainen 0.1 -versio, lähinnä tuon tavutuksen takia sillä
uskon, että siitä saadaan jo nyt sen verran käyttökelpoinen että sitä
kannattaa tarjota laajemmallekin yleisölle. Saatan vielä kokeilla josko
liitepartikkelit ja yksinkertaiset yhdyssanat saisi toimimaan erään melko
suoraviivaisen tempun avulla, mutta jos ei, niin sitten jätetään ne
myöhemmäksi. Ajoitus tälle 0.1 -versiolle osunee sopivasti OpenOfficen 2.0.2
-version julkaisemisen jälkeen, joka siis jo käyttää Hunspelliä ensisijaisena
oikolukukomponenttinaan.
Tämä työkalujen uudistusprosessi on nyt kuitenkin muuttumassa täydelliseksi
uudelleenkirjoitukseksi, sillä tulin siihen tulokseen, että esimerkiksi tuo
johdettujen sanojen käsittely kannattaa tehdä kerralla kunnolla. Siis niin,
että voimme tallentaa suoraan kantasanan yhteyteen tiedot sen johdetuista
muodoista, vaikka Hunspellin kannalta tästä ei välttämättä ole mitään
erityistä hyötyä. Parempi kuitenkin tehdä nyt vähän mahdollisesti turhaa
työtä kuin tehdä myöhemmin isoja muutoksia, mikä on varsin hankalaa sitten
kun sanastoa on jo paljon olemassa.
Seuraavina viikkoina minulla on vähän enemmän opiskelukiireitä, ja tuo
OpenOfficen 2.0.2 -version testailu sekä Oo2-soikon toivottavasti viimeisen
1.1.jotain -version julkaisu vievät väistämättä myös hiukan aikaa. Eli en
varmaan paljon kirjoittele tälle listalle, ja www-sivujen tietoja minulla ei
ole aikomustakaan päivittää. Mutta asiat etenevät kyllä, hitaasti mutta
kuitenkin.
Harri
More information about the devel
mailing list