[hunspell-fi-devel] Eräs esimerkki kielen käsittelystä

Hannu Väisänen hvaisane at joyx.joensuu.fi
Thu Apr 20 17:35:33 EEST 2006


On Thu, Apr 20, 2006 at 04:55:28PM +0300, Harri Pitkänen wrote:

> Juuri tässä mielessä asiat liittyvätkin toisiinsa. Eli perusmuoto ja käytetyt 
> taivutukset kyllä suurin piirtein saadaan Malagasta ulos, kun sille annetaan 
> sana taivutetussa muodossa. (Suurin piirtein siksi, että jos tehdään pelkkää 
> oikoluku-, tavutus- tai indeksointiohjelmaa, ei ole oleellista tietää 
> tarkkaan mikä käytetty taivutusmuoto joissain tapauksissa oli. Tämä antaa 
> mahdollisuuden tietyntyyppisiin yksinkertaistuksiin, joita itse hiukan 
> hyödynsin Hunspellin kanssa. En osaa vielä sanoa Suomi-Malagasta, kuinka 
> paljon näitä siellä on tehty, jos ollenkaan.)

Suomi-malagan pitäisi antaa kaikki taivutusmuodot täydellisesti, ja joskus
liiankin täydellisesti. Esim. se hyväksyy sataa-teonsanan taivutuksen
(minä) sadan, sadat, sataa, sadamme, sadatte, satavat. (-:



> Sen sijaan muunnos takaisin perusmuodosta taivutettuun muotoon ei taida 
> Malagalla onnistua, vaikkakaan en vielä tarkalleen ymmärrä miksi ja voiko 
> tämän jollakin tavalla korjata.

Ei onnistu siksi, että malaga *jäsentää* sanoja, eikä generoi niitä.


> Periaatteessahan muunnos tähän suuntaan on 
> jopa yksinkertaisempi

Joo, mutta jos haluat malagan generoivan sanoja, haluat itse
asiassa ohjelmaa, joka sekä jäsentää että generoi sanoja.
SFST osaisi, jos vain joku tekisi sille joutessaan Koskenniemen mallin. (-:

SFST = Stuttgart Finite State Transducer.



More information about the devel mailing list