[voikko] Voinko käyttää Voikkoa sanojen ohjelmalliseen "kasaamiseen"
Harri Pitkänen
hatapitk at iki.fi
Mon May 7 20:18:51 EEST 2018
Hei!
Mika Vilpas kirjoitti 2018-05-06 23:14:
> 1. Sanaston formaatti yllätti. Ilmeisesti tuo aiemmalla loitsulla
> generoituva all.att -tiedosto on jokin foma-työkalun oma formaatti?
> En oikein osaa lukea sitä, joten "sanojen rakentajan" luonti tällä
> tasolla vaatinee minulta huomattavan paljon paneutumista.
Kyseessä on painottamaton AT&T-formaatti:
http://wiki.apertium.org/wiki/ATT_format
Ei tuota onneksi ole tarkoitettukaan ihmisen luettavaksi saati
muokattavavksi. Se on väliformaatti tiedon siirrossa kahden
kehitystyökalun välillä, ks. seuraava vastaus.
> 2. Mikä on foma-puolen rooli Voikossa?
> Arvaukseni: tarkoitus on sillä analysoida oikoluettava sana, ja
> tarkistaa, että se tunnistuu oikein kirjoitetuksi Suomen kielen
> sanaksi.
> Mutta tulevatko Voikon yhdyssanatarkistukset ja kirjoitusasun
> parannusehdotukset myöskin tätä kautta? Yritän siis kysyä, että
> onko se koko softan "aivot", ja kuinka paljon logiikkaa on rakennettu
> muilla teknologioilla sen päälle.
Foman rooli on toimia kääntäjänä, jolla (likipitäen) Xerox Lexc
-formaatissa kirjoitettu morfologian kuvaus käännetään transduktoriksi
ja tulostetaan ulos AT&T-formaatissa. Tämän jälkeen Voikon oma
voikkovfstc-kääntäjä muuntaa AT&T-formaatissa olevan transduktorin
Voikon omaan VFST-formaattiin. Syitä tähän omaan formaattiin on kaksi:
ensinnäkin VFST-formaatin vaatima muistin/levytilan määrä on noin puolta
pienempi kuin Foman tai muiden vastaavien, ja lisäksi Foma (ja vastaavat
muut työkalut) toisivat mukanaan ohjelmariippuvuuksia, osin jopa
lisensseillä, jotka olisivat olleet meille hankalia.
> 3. Käyttääkö Voikko jossain kohden tampio-ohjelmointikielen
> tapaista selkokielistä sanalistaa?
> Esimerkki löytyy täältä,
> https://github.com/fergusq/tampio/tree/master/voikko [2] (sanat.txt,
> mutta latautuu selaimella melko hitaasti pituutensa takia ilmeisesti).
> Omaa ohjelmaani varten tarvitsisin selkokielisen listan sanoista ja
> mahdollisesti jotain niihin liittyvää metatietoa (esim. sanaluokka
> ja taipuvuustietoja). Saakohan näitä jostain kaivettua?
Tämä on varmaan lähinnä selkokielistä:
https://github.com/voikko/corevoikko/blob/master/voikko-fi/vocabulary/joukahainen.xml
Lisäksi eräät käyttäytymiseltään poikkeaviksi katsotut sanat on
kirjoitettu suoraan lexc-tiedostoihin täällä:
https://github.com/voikko/corevoikko/tree/master/voikko-fi/vvfst
> 4. Onko Voikon kehityksessä jossain vaiheessa mietitty
> mahdollisuutta, jossa käyttäjä voisi lisätä Voikon ymmärryksen
> piiriin uuden sanan taivutuksineen?
> Yksi tarpeeni stenotyypin kanssa on, että käyttäjä voi lisätä
> lennosta mukaan omia sanojaan tai ilmauksiaan (esim. sointu K-U voisi
> jonkin käyttäjän mielestä olla "klonttu"), joita pitäisi pystyä
> taivuttamaan aivan kuten mitä tahansa muitakin sanoja.
On tätä mietitty, mutta ei ole toteutettu. Tämä on hiukan haastavaa,
koska taivutusluokan ja muiden oleellisten attribuuttien määrittely ei
ole ihan yksinkertaista asiaan perehtymättömälle.
Harri
More information about the voikko
mailing list