[hunspell-fi-devel] Hunspell pähkinänkuoressa tyhmyrille
Harri Pitkänen
hatapitk at cc.jyu.fi
Sun Nov 6 21:47:25 EET 2005
On Sunday 06 November 2005 13:41, Elias Aarnio wrote:
> Olen seurannut listan keskustelua ja alan olla jyvällä siitä, mitä
> tehdään. Kaipaisin kuitenkin jonkinlaista selontekoa "for dummies".
>
> Lähinnä hämärän peitossa ovat seuraavat asiat:
Haittaako, jos laitan ainakin osan näistä kysymyksistä vastauksineen
www-sivulle jonkinlaiseen FAQ-tyyliin? Esimerkiksi suoraan etusivulle, se on
tällä hetkellä vähän turhankin tyhjä, voisin siihen jotain tällaista alkaa
koota.
> * Minkälaisiin kielitieteellisiin teorioihin ja luokitteluihin
> hunspellin tapa kuvata luonnollisen kielen käyttöä perustuu? Onko
> teoreettinen tausta kuvattu jossain?
Hunspellin toimintaperiaatteen teoreettinen kuvailu löytyy seuraavasta
artikkelista: http://www.metacarta.com/docs/Kornai_saltmil.pdf
Tuota on ollut kirjoittamassa Hunspellin nykyinen pääkehittäjä László Németh.
Hunspell-fi -sanaston luokitus ei alunperin perustunut mihinkään muuhun kuin
siihen, mikä yrityksen ja erehdyksen menetelmällä kehittämällä tuntui minusta
itsestäni toimivimmalta. Myöhemmin (dev at fi.openoffice.org -listalla saamani
vinkin perusteella) olen käyttänyt luokitusta laajentaessani tukenani
Kielitoimiston (nyk. Kotimaisten kielten tutkimuskeskuksen) sanakirjoissa
käytettyä taivutusluokitusta, mutta kuitenkin niin että olen yrittänyt
sopivissa kohdin yksinkertaistaa sitä siten, että luokituksen käyttö olisi
helpompaa sellaisille jotka eivät kielitieteilijöitä. Eli tällä hetkellä siis
kaikille meistä.
Näiden lisäksi joudumme kehittämään menetelmiä liitepartikkeleiden (-ko, -pa,
-kin jne.) sekä yhdyssanojen käsittelyyn, sillä Hunspell ei nykyisessä
muodossaan kykene niitä millään järkevällä tavalla käsittelemään. Tässä
asiassa tilanne on se, että liitepartikkeleita varten olen toteuttanut
Pythonilla raakaan voimaan perustuvan prototyyppialgoritmin. Lisäksi olen
vaihtanut muutaman sähköpostiviestin László Némethin kanssa, ja hän on
ilmaissut kiinnostuksensa auttaa meitä joten kunhan tämä perussanasto ensin
saadaan jonkinlaiseen kuntoon, lähden viemään tätä yhdyssana-asiaa eteen
päin. Tavoitteeni on, että kaikki tarvittava saadaan itse Hunspelliin mukaan,
jolloin suomen oikolukua varten ei tarvittaisi mitään erillistä ohjelmaa.
> Tämä tuli lähinnä mieleen viime
> aikojen esimerkeistä, joissa substantiivin taivutus riippuu sanan
> semanttisesta merkityksestä, kuten esimerkki sanan "anto" taivutuksesta.
> Tässä tapauksessa ongelmaksi muodostuu mm. se, että sana se voi olla
> myös erisnimi. Mielestäni erisnimi taipuu kuten Jarno Kiuttu esitti:
> anto anton antossa antoja antojen antoissa. Jos sanan merkitys on verbin
> "antaa" johdannainen, sana taipunee, kuten "saanto": anto (saanto),
> annon (saannon), annossa (saannossa), antoja (saantoja), antojen
> (saantojen), annoissa (saannoissa).
Tällaiset tapaukset (eli homonyymit, joissa samalla tavalla kirjoitettu sana
tarkoittaa kahta eri asiaa) käsitellään siten, että ne lisätään sanastoon
kahteen kertaan. Se ei ole mikään ongelma Hunspellin kannala. Meillä on jo
ennestään pari tällaista tapausta, esimerkiksi kuusi (kokonaisluku viiden ja
seitsemän välissä) ja kuusi (havupuu.)
> Astevaihtelujen luokitteleminen on suomen kielessä haastava tehtävä.
> Rohkaiseva puoli on se, että saameksi tehtävä olisi vielä monin verroin
> haastavampi.
Kyllähän se tottumista vaatii. Mutta hyvänä puolena on se, että varmaankin yli
90 prosentissa tapauksista oikea astevaihteluluokka on mahdollista päätellä
täysin mekaanisesti, eli useimmat väärät luokittelut on myöhemmin aika helppo
kaivaa esiin tietokannasta SQL-kyselyn avulla ja korjata.
> * Ketkä tässä hunspell-fi projektissa tekevät ja mitä?
Niiden henkilöiden nimet, jotka ovat sanastoa tai ohjelmakoodia projektiin
luovuttaneet, on listattu sivun http://www.hunspell-fi.org/ohjeet.php
lopussa. Tämän postituslistan arkistosta käy aika hyvin selville, mitä
kukakin on tehnyt. Ennen postituslistan perustamista teimme oikeastaan aivan
samoja asioita.
> * Missä tätä listaa edeltävät arkistot ovat?
Niitä ei ole varsinaisesti ole, kaikki viestintä sitä ennen tapahtui joko
yksityispostissa minun ja asianomaisten henkilöiden välillä, tai
dev at fi.openoffice.org -listalla. Mutta tämä on hyvin uusi projekti, eivätkä
sivuston perustamista edeltäneet pari kuukautta olleet lähellekään yhtä
vilkkaita kuin tämä viimeinen viikko, eli tuskinpa noissa aikaisemmissa
viesteissä hirveän paljon mitään lukemisen arvoista on. Olen yrittänyt aina
muistaessani lisätä asioita www-sivuille. Sieltä tosin löytyy edelleen
varoitus siitä, että osittain dokumentaatio ei ole ajan tasalla. Esimerkiksi
joidenkin apuohjelmien toimintaa ja suunnitteluperiaatetta en ole juuri
mihinkään dokumentoinut, koska kukaan ei ole sellaista dokumentaatiota
minulta vielä pyytänyt.
Jos on asioita, jotka mielestänne ansaitsisivat tulla mainituiksi www-sivulla,
mutta joista on ainoastaan keskusteltu tällä listalla tai aikaisemmissa
sähköposteissa, niin laittakaa minulle viittauksia kyseisiin viesteihin.
Lisään sitten asioita www-sivuille sopivaksi katsomaan paikkaan. Lisäksi, jos
joku listalla olijoista on kiinnostunut joidenkin tiettyjen alasivujen
ylläpidosta (tuo Windows-asennusohje ja ohje UNO-komponentin asentamisesta
OpenOfficeen, joka vieläkin on kirjoittamatta, tulevat ensimmäisenä mieleeni)
niin on varmaan mahdollista järjestää suora päivitysoikeus palvelimelle
kyseiselle henkilölle.
Harri
More information about the devel
mailing list