[hunspell-fi-devel] Bugi suomi-malagassa

Harri Pitkänen hatapitk at cc.jyu.fi
Fri Jun 30 12:58:39 EEST 2006


On Friday 30 June 2006 09:44, Harri Pitkänen wrote:
> On Friday 30 June 2006 00:45, Kalle Lampila wrote:
> > Testailin tossa isommalla wikipedia pohjaisella aineistolla suomi-malagaa
> > ja havaitsin että revision 168 hajoittaa yhdyssanojen tunnistusta
> > jotakin. Löytyi tuhansia sanoja jotka eivät enään tunnistuneet. Liitteenä
> > on otos. Ei viitsinyt postilistalle kaikkia laittaa. voi tarvittaessa
> > lähettää täydellisen listan, mutta luulisi että noistakin ongelma
> > selviää.
>
> Selviää kyllä. Ainakin havaitsin sen, että teonsanoista johdettuja
> nimisanoja ei hyväksytä yhdyssanoissa toisten nimisanojen kanssa. Tarkoitus
> oli vain poistaa teonsana+nimisana -yhdistelmät, ei näitä. Korjataan.

Vika oli tarkalleen ottaen vain -mA -tyyppisissä johdoksissa (uida -> uima|
halli) mutta ne muodostivatkin noin neljänneksen tuosta lähettämästäsi 
listasta. Tämä bugi on nyt korjattu SVN:ssä.

Loput puutteet näyttävät pääosin johtuvan todellisista puutteista sanastossa: 
aikaisemmin käytetty suhteellisen vapaa yhdyssanojen tunnistaminen on 
peittänyt alleen sanaston puutteita. Merkittäviä ovat ainakin tietyntyyppiset 
sanat, joissa on mukana -inen -johdin. Näitä joudumme korjaamaan mm. 
etuliitteitä lisäämällä (tai jollain vastaavalla tavalla, mekanismia on vielä 
vähän pohdittava), lisäämällä -nen -päätteisiä sukunimiä sanastoon (niistä 
puuttuu merkittävä osa) ja lisäämällä "inen" -lippuja joihinkin nimisanoihin.

Kalle: voisitko käydä wikipedian aineiston uudestaan läpi tällä uusimmalla 
SVN-versiolla ja lähettää minulle joko täydellisen listan (sanojen 
kaksoiskappaleet mukaan lukien) tai vielä paremmin, tehdä sille

cat tunnistumattomat.txt | sort | uniq -c | sort -nr

ja lähettää tänne listalle vaikka sata ensimmäistä riviä. Katsoisin siitä, 
mitkä ovat käytännössä eniten harmia aiheuttavia puutteita ja korjaisin ne 
ettei 1.0-versioon jäisi mitään todella noloja aukkoja.

Kaikki muutkin: nyt on hyvä aika tarkistaa Voikolla hallussanne olevia 
suomenkielisiä tekstejä (käyttäkää Suomi-malagan SVN-versiota tai odottakaa, 
että Teemu saa siitä uudet Debian-paketit tehtyä) ja kertokaa tällä listalla 
pahimmista puutteista. Vähemmän kiireellisiä sanoja voi laittaa 
sanastonkeruusovellukseen.

Harri



More information about the devel mailing list