[voikko] HFST:n tilanne Voikon näkökulmasta

Harri Pitkänen hatapitk at iki.fi
Thu Jun 2 14:16:02 EEST 2011


On Tuesday 31 May 2011, Flammie Pirinen wrote:
> Tämä on varmasti odotettavissa, sinänsähän valtaosa näkyvistä
> parannuksista on tullut muista lähteistä kuin oikoluvun tarpeista,
> esim. finnwordnetistä.

Finnwordnetin lisenssi jäi minulle vähän epäselväksi. Ilmeisesti 
suomenkielisen version lisenssi ei ole alkuperäisen Wordnet-lisenssin alainen, 
vai onko? Tämä on hyvinkin oleellista siinä mielessä, että alkuperäinen 
Wordnet olisi ollut lisenssiltään yhteensopiva Joukahaisen ja Kotuksen 
sanalistojen kanssa, mutta suomenkielisessä versiossa mainittu Creative 
Commons -lisenssi ei ole yhteensopiva kummankaan kanssa. Toisaalta pelkän 
sanalistan kääntäminen toiselle kielelle ei muistaakseni tuota kääntäjälle 
tekijänoikeutta, jolloin asialla ei ehkä olisi edes merkitystä, vaan voisimme 
olettaa sanojen olevan käytettävissä myös alkuperäisen Wordnet-lisenssin 
ehdoilla.

Mikäli tästä lisenssistä ei synny ongelmaa, täytyy jossain välissä tarkistaa, 
mitä sanoja Finnwordnetistä voisi ottaa Joukahaisen kautta mukaan Voikon 
sanastoon.

> Pystyisitkö tai joudatko generoida listoja näistä
> eroista jossain vaiheessa?

http://www.puimula.org/htp/voikko/voikko-omorfi-erot.txt

Tuossa miinusmerkillä alkavat sanat ovat siis ainoastaan SMV:ssä, plusmerkillä 
alkavat Omorfissa. Vertailu on tehty SMV:n perusversiota vasten, eli osa 
murteellisista, lääketieteellisistä tms. sanoista jää tässä Voikolta 
tunnustamatta, vaikka sanat ovatkin Joukahaisessa ja mukana 
erikoissanastoissa.

> On harmillista että
> tehokkain tapa kontrolloida yhdyssanojen ja johdosten kombinatoriikkaa
> on niin kankea että sen muuttaminen on kovin työlästä ja virheherkkää.

Toivottavasti tämä kuitenkin on jotenkin ylläpidettävissä. Juuri nämä 
yhdyssanasäännöt johtivat aikanaan Sukijan ja Voikon toteutusten eriytymiseen 
muun kuin sanaston ylläpidon osalta. Vastaava ongelma on vastassa varmasti 
Omorfin kanssakin, eli tarvitsemme Voikkoa varten mukautetut yhdyssanasäännöt.

> Nämä ovat kanssa ihan hyviä helppoja lähestymistapoja jos muistia
> tarvitsee säästää. Suuraakkosten huomiointi suoraviiivaisimmalla
> tavalla tuplaa automaatin koon. Itse olen käyttänyt tätä paisunutta
> versiota työ- ja kotikoneillani melko ongelmitta, useimmat tietokoneet
> siis vaikuttavat olevan sellaisia että 40 megaa joutaa haaskata
> moneltakin ohjelmalta vielä. Asia voi tietysti olla erilainen jos
> halutaan käyttää oikolukua puhelimessa tai edelleen esim. grönlannin
> oikoluvun kanssa.

Ajattelin siis sellaista toteutusta, että sanastoon tulisi sanoista vain 
normaalimuodot, eli lyhenteet isolla, erisnimet isolla alkukirjaimella 
(mahdollisesti välikirjaimetkin voivat olla isoja, esim. OpenOffice.org), muut 
pienellä. Sitten lookup-vaiheessa käydään transduktori läpi kirjaintasosta 
välittämättä, mutta palautetaan tunnistetuista sanoista myös se normaalimuoto. 
Tätä normaalimuotoa verrataan lopuksi syötteenä saatuun sanaan, ja libvoikon 
asetukset huomioiden ratkaistaan, vastaako tunnistettu sana sittenkään 
syötettä.

Nopeuden puolesta tämä menetelmä on hiukan hitaampi kuin normaali (tarkka) 
haku automaatista ja soveltuu toki vain kielille, joissa isojen ja pienten 
kirjainten käyttöön liittyvät säännöt ovat yksinkertaiset. Mutta Voikko toimii 
oleellisesti ottaen tällä periaatteella nytkin (oikeastaan hiukan 
epäoptimaalisemmalla tavalla), joten ihmettelisin, jos lopputulos kaikkien 
optimointien jälkeen jäisi nykyistä Voikkoa hitaammaksi. Ja toisaalta osa 
menetetystä nopeudesta saadaan takaisin siinä, että pienempi transduktori 
hyödyntää paremmin prosessorin välimuisteja, joiden koko on tyypillisesti 
muutaman megatavun suuruusluokkaa.

Harri



More information about the voikko mailing list