[voikko] HFST:n tilanne Voikon näkökulmasta
Harri Pitkänen
hatapitk at iki.fi
Thu Jun 2 14:16:02 EEST 2011
On Tuesday 31 May 2011, Flammie Pirinen wrote:
> Tämä on varmasti odotettavissa, sinänsähän valtaosa näkyvistä
> parannuksista on tullut muista lähteistä kuin oikoluvun tarpeista,
> esim. finnwordnetistä.
Finnwordnetin lisenssi jäi minulle vähän epäselväksi. Ilmeisesti
suomenkielisen version lisenssi ei ole alkuperäisen Wordnet-lisenssin alainen,
vai onko? Tämä on hyvinkin oleellista siinä mielessä, että alkuperäinen
Wordnet olisi ollut lisenssiltään yhteensopiva Joukahaisen ja Kotuksen
sanalistojen kanssa, mutta suomenkielisessä versiossa mainittu Creative
Commons -lisenssi ei ole yhteensopiva kummankaan kanssa. Toisaalta pelkän
sanalistan kääntäminen toiselle kielelle ei muistaakseni tuota kääntäjälle
tekijänoikeutta, jolloin asialla ei ehkä olisi edes merkitystä, vaan voisimme
olettaa sanojen olevan käytettävissä myös alkuperäisen Wordnet-lisenssin
ehdoilla.
Mikäli tästä lisenssistä ei synny ongelmaa, täytyy jossain välissä tarkistaa,
mitä sanoja Finnwordnetistä voisi ottaa Joukahaisen kautta mukaan Voikon
sanastoon.
> Pystyisitkö tai joudatko generoida listoja näistä
> eroista jossain vaiheessa?
http://www.puimula.org/htp/voikko/voikko-omorfi-erot.txt
Tuossa miinusmerkillä alkavat sanat ovat siis ainoastaan SMV:ssä, plusmerkillä
alkavat Omorfissa. Vertailu on tehty SMV:n perusversiota vasten, eli osa
murteellisista, lääketieteellisistä tms. sanoista jää tässä Voikolta
tunnustamatta, vaikka sanat ovatkin Joukahaisessa ja mukana
erikoissanastoissa.
> On harmillista että
> tehokkain tapa kontrolloida yhdyssanojen ja johdosten kombinatoriikkaa
> on niin kankea että sen muuttaminen on kovin työlästä ja virheherkkää.
Toivottavasti tämä kuitenkin on jotenkin ylläpidettävissä. Juuri nämä
yhdyssanasäännöt johtivat aikanaan Sukijan ja Voikon toteutusten eriytymiseen
muun kuin sanaston ylläpidon osalta. Vastaava ongelma on vastassa varmasti
Omorfin kanssakin, eli tarvitsemme Voikkoa varten mukautetut yhdyssanasäännöt.
> Nämä ovat kanssa ihan hyviä helppoja lähestymistapoja jos muistia
> tarvitsee säästää. Suuraakkosten huomiointi suoraviiivaisimmalla
> tavalla tuplaa automaatin koon. Itse olen käyttänyt tätä paisunutta
> versiota työ- ja kotikoneillani melko ongelmitta, useimmat tietokoneet
> siis vaikuttavat olevan sellaisia että 40 megaa joutaa haaskata
> moneltakin ohjelmalta vielä. Asia voi tietysti olla erilainen jos
> halutaan käyttää oikolukua puhelimessa tai edelleen esim. grönlannin
> oikoluvun kanssa.
Ajattelin siis sellaista toteutusta, että sanastoon tulisi sanoista vain
normaalimuodot, eli lyhenteet isolla, erisnimet isolla alkukirjaimella
(mahdollisesti välikirjaimetkin voivat olla isoja, esim. OpenOffice.org), muut
pienellä. Sitten lookup-vaiheessa käydään transduktori läpi kirjaintasosta
välittämättä, mutta palautetaan tunnistetuista sanoista myös se normaalimuoto.
Tätä normaalimuotoa verrataan lopuksi syötteenä saatuun sanaan, ja libvoikon
asetukset huomioiden ratkaistaan, vastaako tunnistettu sana sittenkään
syötettä.
Nopeuden puolesta tämä menetelmä on hiukan hitaampi kuin normaali (tarkka)
haku automaatista ja soveltuu toki vain kielille, joissa isojen ja pienten
kirjainten käyttöön liittyvät säännöt ovat yksinkertaiset. Mutta Voikko toimii
oleellisesti ottaen tällä periaatteella nytkin (oikeastaan hiukan
epäoptimaalisemmalla tavalla), joten ihmettelisin, jos lopputulos kaikkien
optimointien jälkeen jäisi nykyistä Voikkoa hitaammaksi. Ja toisaalta osa
menetetystä nopeudesta saadaan takaisin siinä, että pienempi transduktori
hyödyntää paremmin prosessorin välimuisteja, joiden koko on tyypillisesti
muutaman megatavun suuruusluokkaa.
Harri
More information about the voikko
mailing list