[hunspell-fi-devel] Hunspell pähkinänkuoressa tyhmyrille

Harri Pitkänen hatapitk at cc.jyu.fi
Sun Nov 6 21:47:25 EET 2005


On Sunday 06 November 2005 13:41, Elias Aarnio wrote:
> Olen seurannut listan keskustelua ja alan olla jyvällä siitä, mitä
> tehdään. Kaipaisin kuitenkin jonkinlaista selontekoa "for dummies".
>
> Lähinnä hämärän peitossa ovat seuraavat asiat:
Haittaako, jos laitan ainakin osan näistä kysymyksistä vastauksineen 
www-sivulle jonkinlaiseen FAQ-tyyliin? Esimerkiksi suoraan etusivulle, se on 
tällä hetkellä vähän turhankin tyhjä, voisin siihen jotain tällaista alkaa 
koota.

> * Minkälaisiin kielitieteellisiin teorioihin ja luokitteluihin
> hunspellin tapa kuvata luonnollisen kielen käyttöä perustuu? Onko
> teoreettinen tausta kuvattu jossain?
Hunspellin toimintaperiaatteen teoreettinen kuvailu löytyy seuraavasta 
artikkelista: http://www.metacarta.com/docs/Kornai_saltmil.pdf
Tuota on ollut kirjoittamassa Hunspellin nykyinen pääkehittäjä László Németh. 
Hunspell-fi -sanaston luokitus ei alunperin perustunut mihinkään muuhun kuin 
siihen, mikä yrityksen ja erehdyksen menetelmällä kehittämällä tuntui minusta 
itsestäni toimivimmalta. Myöhemmin (dev at fi.openoffice.org -listalla saamani 
vinkin perusteella) olen käyttänyt luokitusta laajentaessani tukenani 
Kielitoimiston (nyk. Kotimaisten kielten tutkimuskeskuksen) sanakirjoissa 
käytettyä taivutusluokitusta, mutta kuitenkin niin että olen yrittänyt 
sopivissa kohdin yksinkertaistaa sitä siten, että luokituksen käyttö olisi 
helpompaa sellaisille jotka eivät kielitieteilijöitä. Eli tällä hetkellä siis 
kaikille meistä.
Näiden lisäksi joudumme kehittämään menetelmiä liitepartikkeleiden (-ko, -pa, 
-kin jne.) sekä yhdyssanojen käsittelyyn, sillä Hunspell ei nykyisessä 
muodossaan kykene niitä millään järkevällä tavalla käsittelemään. Tässä 
asiassa tilanne on se, että liitepartikkeleita varten olen toteuttanut 
Pythonilla raakaan voimaan perustuvan prototyyppialgoritmin. Lisäksi olen 
vaihtanut muutaman sähköpostiviestin László Némethin kanssa, ja hän on 
ilmaissut kiinnostuksensa auttaa meitä joten kunhan tämä perussanasto ensin 
saadaan jonkinlaiseen kuntoon, lähden viemään tätä yhdyssana-asiaa eteen 
päin. Tavoitteeni on, että kaikki tarvittava saadaan itse Hunspelliin mukaan, 
jolloin suomen oikolukua varten ei tarvittaisi mitään erillistä ohjelmaa.

> Tämä tuli lähinnä mieleen viime 
> aikojen esimerkeistä, joissa substantiivin taivutus riippuu sanan
> semanttisesta merkityksestä, kuten esimerkki sanan "anto" taivutuksesta.
> Tässä tapauksessa ongelmaksi muodostuu mm. se, että sana se voi olla
> myös erisnimi. Mielestäni erisnimi taipuu kuten Jarno Kiuttu esitti:
> anto anton antossa antoja antojen antoissa. Jos sanan merkitys on verbin
>   "antaa" johdannainen, sana taipunee, kuten "saanto": anto (saanto),
> annon (saannon), annossa (saannossa), antoja (saantoja), antojen
> (saantojen), annoissa (saannoissa).
Tällaiset tapaukset (eli homonyymit, joissa samalla tavalla kirjoitettu sana 
tarkoittaa kahta eri asiaa) käsitellään siten, että ne lisätään sanastoon 
kahteen kertaan. Se ei ole mikään ongelma Hunspellin kannala. Meillä on jo 
ennestään pari tällaista tapausta, esimerkiksi kuusi (kokonaisluku viiden ja 
seitsemän välissä) ja kuusi (havupuu.)

> Astevaihtelujen luokitteleminen on suomen kielessä haastava tehtävä.
> Rohkaiseva puoli on se, että saameksi tehtävä olisi vielä monin verroin
> haastavampi.
Kyllähän se tottumista vaatii. Mutta hyvänä puolena on se, että varmaankin yli 
90 prosentissa tapauksista oikea astevaihteluluokka on mahdollista päätellä 
täysin mekaanisesti, eli useimmat väärät luokittelut on myöhemmin aika helppo 
kaivaa esiin tietokannasta SQL-kyselyn avulla ja korjata.

> * Ketkä tässä hunspell-fi projektissa tekevät ja mitä?
Niiden henkilöiden nimet, jotka ovat sanastoa tai ohjelmakoodia projektiin 
luovuttaneet, on listattu sivun http://www.hunspell-fi.org/ohjeet.php 
lopussa. Tämän postituslistan arkistosta käy aika hyvin selville, mitä 
kukakin on tehnyt. Ennen postituslistan perustamista teimme oikeastaan aivan 
samoja asioita.

> * Missä tätä listaa edeltävät arkistot ovat?
Niitä ei ole varsinaisesti ole, kaikki viestintä sitä ennen tapahtui joko 
yksityispostissa minun ja asianomaisten henkilöiden välillä, tai 
dev at fi.openoffice.org -listalla. Mutta tämä on hyvin uusi projekti, eivätkä 
sivuston perustamista edeltäneet pari kuukautta olleet lähellekään yhtä 
vilkkaita kuin tämä viimeinen viikko, eli tuskinpa noissa aikaisemmissa 
viesteissä hirveän paljon mitään lukemisen arvoista on. Olen yrittänyt aina 
muistaessani lisätä asioita www-sivuille. Sieltä tosin löytyy edelleen 
varoitus siitä, että osittain dokumentaatio ei ole ajan tasalla. Esimerkiksi 
joidenkin apuohjelmien toimintaa ja suunnitteluperiaatetta en ole juuri 
mihinkään dokumentoinut, koska kukaan ei ole sellaista dokumentaatiota 
minulta vielä pyytänyt.


Jos on asioita, jotka mielestänne ansaitsisivat tulla mainituiksi www-sivulla, 
mutta joista on ainoastaan keskusteltu tällä listalla tai aikaisemmissa 
sähköposteissa, niin laittakaa minulle viittauksia kyseisiin viesteihin. 
Lisään sitten asioita www-sivuille sopivaksi katsomaan paikkaan. Lisäksi, jos 
joku listalla olijoista on kiinnostunut joidenkin tiettyjen alasivujen 
ylläpidosta (tuo Windows-asennusohje ja ohje UNO-komponentin asentamisesta 
OpenOfficeen, joka vieläkin on kirjoittamatta, tulevat ensimmäisenä mieleeni) 
niin on varmaan mahdollista järjestää suora päivitysoikeus palvelimelle 
kyseiselle henkilölle.

Harri



More information about the devel mailing list