[hunspell-fi-devel] Eräs esimerkki kielen käsittelystä
Hannu Väisänen
hvaisane at joyx.joensuu.fi
Thu Apr 20 17:35:33 EEST 2006
On Thu, Apr 20, 2006 at 04:55:28PM +0300, Harri Pitkänen wrote:
> Juuri tässä mielessä asiat liittyvätkin toisiinsa. Eli perusmuoto ja käytetyt
> taivutukset kyllä suurin piirtein saadaan Malagasta ulos, kun sille annetaan
> sana taivutetussa muodossa. (Suurin piirtein siksi, että jos tehdään pelkkää
> oikoluku-, tavutus- tai indeksointiohjelmaa, ei ole oleellista tietää
> tarkkaan mikä käytetty taivutusmuoto joissain tapauksissa oli. Tämä antaa
> mahdollisuuden tietyntyyppisiin yksinkertaistuksiin, joita itse hiukan
> hyödynsin Hunspellin kanssa. En osaa vielä sanoa Suomi-Malagasta, kuinka
> paljon näitä siellä on tehty, jos ollenkaan.)
Suomi-malagan pitäisi antaa kaikki taivutusmuodot täydellisesti, ja joskus
liiankin täydellisesti. Esim. se hyväksyy sataa-teonsanan taivutuksen
(minä) sadan, sadat, sataa, sadamme, sadatte, satavat. (-:
> Sen sijaan muunnos takaisin perusmuodosta taivutettuun muotoon ei taida
> Malagalla onnistua, vaikkakaan en vielä tarkalleen ymmärrä miksi ja voiko
> tämän jollakin tavalla korjata.
Ei onnistu siksi, että malaga *jäsentää* sanoja, eikä generoi niitä.
> Periaatteessahan muunnos tähän suuntaan on
> jopa yksinkertaisempi
Joo, mutta jos haluat malagan generoivan sanoja, haluat itse
asiassa ohjelmaa, joka sekä jäsentää että generoi sanoja.
SFST osaisi, jos vain joku tekisi sille joutessaan Koskenniemen mallin. (-:
SFST = Stuttgart Finite State Transducer.
More information about the devel
mailing list