[voikko] HFST:n tilanne Voikon näkökulmasta

Flammie Pirinen flammie at iki.fi
Tue May 31 12:46:28 EEST 2011


2011-05-30, Harri Pitkänen sanoi:

> Olen hiukan ehtinyt testaamaan uusimpia versioita HFST:stä ja
> Omorfistä. Edellisistä testeistäni oli ehtinyt kulua jo noin vuosi,
> ja paljon on tässä välissä ehtinyt muuttua.

Tämä on hyvä kuulla, hienoa että olet ehtinyt kokeilemaan ja kaikki
toimii.

> - Omorfi on oikoluvun näkökulmasta kehittynyt merkittävästi, ja erot
> nykyiseen Voikkoon ovat enää enemmän tai vähemmän erikoistapauksia.
> Näitä eroja kuitenkin on edelleen. Suurimmassa osassa tapauksista SMV
> tekee edelleen oikoluvun näkökulmasta parempia valintoja.

Tämä on varmasti odotettavissa, sinänsähän valtaosa näkyvistä
parannuksista on tullut muista lähteistä kuin oikoluvun tarpeista,
esim. finnwordnetistä. Pystyisitkö tai joudatko generoida listoja näistä
eroista jossain vaiheessa?


> [S]ellaiset nimet tai termit, jotka
> SMV:stä on jätetty pois oletetun lyhytikäisyytensä perusteella.
> Näyttää siltä, että ottamalla mukaan joitakin yritysten nimiä ja
> muita "muotisanoja" voisimme parantaa oikoluvun osumatarkkuutta
> jonkin verran. Jos tällaisia sanoja lisättäisiin, ne pitäisi merkitä
> Joukahaisessa sopivalla lipulla, jotta ne voitaisiin sopivin
> väliajoin tarkistaa ja poistaa, kun sana jää pois muodista. En tiedä,
> onko tämä vaivan arvoista. Yritysten nimien kohdalla kysymykseksi
> nousee myös kaupallinen tasa-arvoisuus, eli jos yksi yritys tai
> tuotemerkki hyväksytään sanastoon, voi olla hankala hylätä jotain
> toista.

Käytännössä on aina joitain sovelluksia, joissa kaiken ottaminen mukaan
kannattaa, kuten useat tiedonhaun tehtävät. Tältä kannalta ainakin
omorfiin on aina hyvä kerätä ainakin suosituimmat puuttuvat muotisanat
ja yritysten nimet, mutta toki niitä on niin hallitsemattomasti, ettei
siihen voi loputtomasti hukata aikaa. 

> - SMV:n vahvuuksia Omorfiin verrattuna on kyky hylätä virheellisiä
> yhdyssanoja. Kieliä, maita, kansallisuuksia ja lukusanoja sisältävien
> yhdyssanojen käsittely sekä suomalaisten paikannimien tunnistukseen
> liittyvä heuristiikka ovat SMV:ssä paremmalla mallilla. Johdosten ja
> taivutusmuotojen osalta SMV:ssä käytössä olevat tuntuvat olevan
> oikoluvun kannalta ehkä paremmat.

Näitä pitäisikin varmasti portata smv:stä mukaan. On harmillista että
tehokkain tapa kontrolloida yhdyssanojen ja johdosten kombinatoriikkaa
on niin kankea että sen muuttaminen on kovin työlästä ja virheherkkää.

> - Muistia Omorfi käytti reilu 40 megatavua, SMV noin 10. SMV oli myös
> nopeampi, mutta ehkäpä Käyttämäni Omorfi-transduktori ei ollut tässä
> mielessä optimaalisin.

Paljosta muistihukasta päässee kyllä eroon tarpeen mukaan, käytän nyt
ainakin omassa kokoonpanossani vain kahta sanakirjaa, joista
tarkistussanakirja on eri kuin ehdotussanakirja, 

> - Epäilen, että SMV:ssä käytetty menetelmä (tai siitä
> yksinkertaistettu muunnelma) kirjainkoon huomioimisessa voisi olla
> muistinkäytön kannalta tehokkaampi myös transduktoripohjaisessa
> toteutuksessa. Tätä pitäisi pohtia lisää, samoin kuin mmap-kelpoisen
> transduktoriformaatin toteutusta.

Nämä ovat kanssa ihan hyviä helppoja lähestymistapoja jos muistia
tarvitsee säästää. Suuraakkosten huomiointi suoraviiivaisimmalla
tavalla tuplaa automaatin koon. Itse olen käyttänyt tätä paisunutta
versiota työ- ja kotikoneillani melko ongelmitta, useimmat tietokoneet
siis vaikuttavat olevan sellaisia että 40 megaa joutaa haaskata
moneltakin ohjelmalta vielä. Asia voi tietysti olla erilainen jos
halutaan käyttää oikolukua puhelimessa tai edelleen esim. grönlannin
oikoluvun kanssa.
-- 
Flammie, computer scientist bachelor, linguist master, free software
Finnish localiser, and more! <http://www.iki.fi/flammie/>



More information about the voikko mailing list