[voikko] HFST:n tilanne Voikon näkökulmasta

Harri Pitkänen hatapitk at iki.fi
Mon May 30 22:41:00 EEST 2011


Olen hiukan ehtinyt testaamaan uusimpia versioita HFST:stä ja Omorfistä.
Edellisistä testeistäni oli ehtinyt kulua jo noin vuosi, ja paljon on
tässä välissä ehtinyt muuttua. Tässä hiukan havaintoja ja ajatuksia
itselleni muistiin ja muille tiedoksi. Tarkempaa vertailua Omorfin ja
Suomi-malagan Voikko-version (SMV) välillä on toivottavasti tulossa
myöhemmin:

- Omorfi on oikoluvun näkökulmasta kehittynyt merkittävästi, ja erot
nykyiseen Voikkoon ovat enää enemmän tai vähemmän erikoistapauksia. Näitä
eroja kuitenkin on edelleen. Suurimmassa osassa tapauksista SMV tekee
edelleen oikoluvun näkökulmasta parempia valintoja.

- Tilanteista, joissa Omorfi tunnisti kelvollisia sanoja paremmin kuin SMV
yleisimpiä olivat sitaattilainoja sisältävät yhdyssanat (nyt korjattu
SMV:ssä) sekä eräät sellaiset nimet tai termit, jotka SMV:stä on jätetty
pois oletetun lyhytikäisyytensä perusteella. Näyttää siltä, että ottamalla
mukaan joitakin yritysten nimiä ja muita "muotisanoja" voisimme parantaa
oikoluvun osumatarkkuutta jonkin verran. Jos tällaisia sanoja
lisättäisiin, ne pitäisi merkitä Joukahaisessa sopivalla lipulla, jotta ne
voitaisiin sopivin väliajoin tarkistaa ja poistaa, kun sana jää pois
muodista. En tiedä, onko tämä vaivan arvoista. Yritysten nimien kohdalla
kysymykseksi nousee myös kaupallinen tasa-arvoisuus, eli jos yksi yritys
tai tuotemerkki hyväksytään sanastoon, voi olla hankala hylätä jotain
toista.

- SMV:n vahvuuksia Omorfiin verrattuna on kyky hylätä virheellisiä
yhdyssanoja. Kieliä, maita, kansallisuuksia ja lukusanoja sisältävien
yhdyssanojen käsittely sekä suomalaisten paikannimien tunnistukseen
liittyvä heuristiikka ovat SMV:ssä paremmalla mallilla. Johdosten ja
taivutusmuotojen osalta SMV:ssä käytössä olevat tuntuvat olevan oikoluvun
kannalta ehkä paremmat.

- Muistia Omorfi käytti reilu 40 megatavua, SMV noin 10. SMV oli myös
nopeampi, mutta ehkäpä Käyttämäni Omorfi-transduktori ei ollut tässä
mielessä optimaalisin.

- Epäilen, että SMV:ssä käytetty menetelmä (tai siitä yksinkertaistettu
muunnelma) kirjainkoon huomioimisessa voisi olla muistinkäytön kannalta
tehokkaampi myös transduktoripohjaisessa toteutuksessa. Tätä pitäisi
pohtia lisää, samoin kuin mmap-kelpoisen transduktoriformaatin toteutusta.

Harri




More information about the voikko mailing list