[voikko] Voinko käyttää Voikkoa sanojen ohjelmalliseen "kasaamiseen"

Harri Pitkänen hatapitk at iki.fi
Mon May 7 20:18:51 EEST 2018


Hei!

Mika Vilpas kirjoitti 2018-05-06 23:14:
> 1. Sanaston formaatti yllätti. Ilmeisesti tuo aiemmalla loitsulla
> generoituva all.att -tiedosto on jokin foma-työkalun oma formaatti?
> En oikein osaa lukea sitä, joten "sanojen rakentajan" luonti tällä
> tasolla vaatinee minulta huomattavan paljon paneutumista.

Kyseessä on painottamaton AT&T-formaatti: 
http://wiki.apertium.org/wiki/ATT_format
Ei tuota onneksi ole tarkoitettukaan ihmisen luettavaksi saati 
muokattavavksi. Se on väliformaatti tiedon siirrossa kahden 
kehitystyökalun välillä, ks. seuraava vastaus.

> 2. Mikä on foma-puolen rooli Voikossa?
> Arvaukseni: tarkoitus on sillä analysoida oikoluettava sana, ja
> tarkistaa, että se tunnistuu oikein kirjoitetuksi Suomen kielen
> sanaksi.
> Mutta tulevatko Voikon yhdyssanatarkistukset ja kirjoitusasun
> parannusehdotukset myöskin tätä kautta? Yritän siis kysyä, että
> onko se koko softan "aivot", ja kuinka paljon logiikkaa on rakennettu
> muilla teknologioilla sen päälle.

Foman rooli on toimia kääntäjänä, jolla (likipitäen) Xerox Lexc 
-formaatissa kirjoitettu morfologian kuvaus käännetään transduktoriksi 
ja tulostetaan ulos AT&T-formaatissa. Tämän jälkeen Voikon oma 
voikkovfstc-kääntäjä muuntaa AT&T-formaatissa olevan transduktorin 
Voikon omaan VFST-formaattiin. Syitä tähän omaan formaattiin on kaksi: 
ensinnäkin VFST-formaatin vaatima muistin/levytilan määrä on noin puolta 
pienempi kuin Foman tai muiden vastaavien, ja lisäksi Foma (ja vastaavat 
muut työkalut) toisivat mukanaan ohjelmariippuvuuksia, osin jopa 
lisensseillä, jotka olisivat olleet meille hankalia.

> 3. Käyttääkö Voikko jossain kohden tampio-ohjelmointikielen
> tapaista selkokielistä sanalistaa?
> Esimerkki löytyy täältä,
> https://github.com/fergusq/tampio/tree/master/voikko [2] (sanat.txt,
> mutta latautuu selaimella melko hitaasti pituutensa takia ilmeisesti).
> Omaa ohjelmaani varten tarvitsisin selkokielisen listan sanoista ja
> mahdollisesti jotain niihin liittyvää metatietoa (esim. sanaluokka
> ja taipuvuustietoja). Saakohan näitä jostain kaivettua?

Tämä on varmaan lähinnä selkokielistä:

   
https://github.com/voikko/corevoikko/blob/master/voikko-fi/vocabulary/joukahainen.xml

Lisäksi eräät käyttäytymiseltään poikkeaviksi katsotut sanat on 
kirjoitettu suoraan lexc-tiedostoihin täällä:

   https://github.com/voikko/corevoikko/tree/master/voikko-fi/vvfst

> 4. Onko Voikon kehityksessä jossain vaiheessa mietitty
> mahdollisuutta, jossa käyttäjä voisi lisätä Voikon ymmärryksen
> piiriin uuden sanan taivutuksineen?
> Yksi tarpeeni stenotyypin kanssa on, että käyttäjä voi lisätä
> lennosta mukaan omia sanojaan tai ilmauksiaan (esim. sointu K-U voisi
> jonkin käyttäjän mielestä olla "klonttu"), joita pitäisi pystyä
> taivuttamaan aivan kuten mitä tahansa muitakin sanoja.

On tätä mietitty, mutta ei ole toteutettu. Tämä on hiukan haastavaa, 
koska taivutusluokan ja muiden oleellisten attribuuttien määrittely ei 
ole ihan yksinkertaista asiaan perehtymättömälle.

Harri


More information about the voikko mailing list