[hunspell-fi-devel] Tilanneraportti

Harri Pitkänen hatapitk at cc.jyu.fi
Thu Feb 16 21:22:03 EET 2006


Apuohjelmat
===========

Apuohjelmien kehittäminen CVS:ssä on nyt edennyt siihen vaiheeseen, että 
substantiivit (poikkeavasti taipuvia lukuun ottamatta) toimivat jälleen kuten 
vanhoillakin apuohjelmilla. Tai oikeastaan paremmin, sillä affiksitiedoston 
korvaaminen paremmin suunnitellulla "taivutusmuototaulukolla" paljasti useita 
pieniä virheitä vanhassa affiksitiedostossa, jotka olivat jääneet 
huomaamatta. Nämä on nyt kaikki korjattu uudessa taulukossa, mutta vanhaa 
affiksitiedostoa en enää korjaile (ei siis kannata odottaa päivityksiä tuonne 
tiedostot-sivulle). Nämä uudet apuohjelmat ovat huomattavasti joustavampia. 
Esimerkiksi seuraavantyylinen työkalu oli mahdollista toteuttaa niiden päälle 
(komentoriviparametrien käsittely pois lukien) kahdeksalla rivillä 
Python-koodia:

$ hf-inflect-word asiakas subst-as2-av2
nominatiivi         asiakas
genetiivi           asiakkaan
partitiivi          asiakasta
translatiivi        asiakkaaksi
essiivi             asiakkaana
inessiivi           asiakkaassa
elatiivi            asiakkaasta
illatiivi           asiakkaaseen
adessiivi           asiakkaalla
ablatiivi           asiakkaalta
allatiivi           asiakkaalle
abessiivi           asiakkaatta
nominatiivi_mon     asiakkaat
genetiivi_mon       asiakkaiden
genetiivi_mon       asiakkaitten
partitiivi_mon      asiakkaita
translatiivi_mon    asiakkaiksi
essiivi_mon         asiakkaina
inessiivi_mon       asiakkaissa
elatiivi_mon        asiakkaista
illatiivi_mon       asiakkaisiin
adessiivi_mon       asiakkailla
ablatiivi_mon       asiakkailta
allatiivi_mon       asiakkaille
abessiivi_mon       asiakkaitta
instruktiivi_mon    asiakkain

Viimesyksyisillä työkaluilla tämä olisi ollut huomattavasti työläämpää.


Bugi Hunspellin morfologisen analyysin osuudessa
================================================

Tämä bugi, jota yritimme selvittää tammikuussa, on tosiaankin hieman 
epätriviaali. Németh László vastasi tänään näin:

> Unfortunatelly, I haven't synchronised then new COMPOUNDRULE
> function with the morphological analysis, yet. I will fix it
> in the next version of Hunspell.
>
> I will also rewrite the morphological data handling in the
> next couple of months.

Eli tälle asialle ei nyt kannata tehdä mitään, odotellaan että Németh saa 
suunnittelemansa muutokset tehtyä ja edetään sitten niiden pohjalta. 
Käytännössä tämä tarkoittaa sitä, että liitepartikkeleita ja yhdyssanoja ei 
kannata vielä miettiä liikaa.


Suunnitelma helmi-maaliskuulle
==============================

Seuraavaksi yritän saada adjektiivit toimimaan uuden mallin mukaisilla 
apuohjelmilla, ja toteutan sen tavutusalgoritmin. Sitten olisi tarkoitus 
julkaista jonkinlainen 0.1 -versio, lähinnä tuon tavutuksen takia sillä 
uskon, että siitä saadaan jo nyt sen verran käyttökelpoinen että sitä 
kannattaa tarjota laajemmallekin yleisölle. Saatan vielä kokeilla josko 
liitepartikkelit ja yksinkertaiset yhdyssanat saisi toimimaan erään melko 
suoraviivaisen tempun avulla, mutta jos ei, niin sitten jätetään ne 
myöhemmäksi. Ajoitus tälle 0.1 -versiolle osunee sopivasti OpenOfficen 2.0.2 
-version julkaisemisen jälkeen, joka siis jo käyttää Hunspelliä ensisijaisena 
oikolukukomponenttinaan.

Tämä työkalujen uudistusprosessi on nyt kuitenkin muuttumassa täydelliseksi 
uudelleenkirjoitukseksi, sillä tulin siihen tulokseen, että esimerkiksi tuo 
johdettujen sanojen käsittely kannattaa tehdä kerralla kunnolla. Siis niin, 
että voimme tallentaa suoraan kantasanan yhteyteen tiedot sen johdetuista 
muodoista, vaikka Hunspellin kannalta tästä ei välttämättä ole mitään 
erityistä hyötyä. Parempi kuitenkin tehdä nyt vähän mahdollisesti turhaa 
työtä kuin tehdä myöhemmin isoja muutoksia, mikä on varsin hankalaa sitten 
kun sanastoa on jo paljon olemassa.

Seuraavina viikkoina minulla on vähän enemmän opiskelukiireitä, ja tuo 
OpenOfficen 2.0.2 -version testailu sekä Oo2-soikon toivottavasti viimeisen 
1.1.jotain -version julkaisu vievät väistämättä myös hiukan aikaa. Eli en 
varmaan paljon kirjoittele tälle listalle, ja www-sivujen tietoja minulla ei 
ole aikomustakaan päivittää. Mutta asiat etenevät kyllä, hitaasti mutta 
kuitenkin.

Harri



More information about the devel mailing list