[hunspell-fi-devel] Bugi suomi-malagassa
Harri Pitkänen
hatapitk at cc.jyu.fi
Fri Jun 30 12:58:39 EEST 2006
On Friday 30 June 2006 09:44, Harri Pitkänen wrote:
> On Friday 30 June 2006 00:45, Kalle Lampila wrote:
> > Testailin tossa isommalla wikipedia pohjaisella aineistolla suomi-malagaa
> > ja havaitsin että revision 168 hajoittaa yhdyssanojen tunnistusta
> > jotakin. Löytyi tuhansia sanoja jotka eivät enään tunnistuneet. Liitteenä
> > on otos. Ei viitsinyt postilistalle kaikkia laittaa. voi tarvittaessa
> > lähettää täydellisen listan, mutta luulisi että noistakin ongelma
> > selviää.
>
> Selviää kyllä. Ainakin havaitsin sen, että teonsanoista johdettuja
> nimisanoja ei hyväksytä yhdyssanoissa toisten nimisanojen kanssa. Tarkoitus
> oli vain poistaa teonsana+nimisana -yhdistelmät, ei näitä. Korjataan.
Vika oli tarkalleen ottaen vain -mA -tyyppisissä johdoksissa (uida -> uima|
halli) mutta ne muodostivatkin noin neljänneksen tuosta lähettämästäsi
listasta. Tämä bugi on nyt korjattu SVN:ssä.
Loput puutteet näyttävät pääosin johtuvan todellisista puutteista sanastossa:
aikaisemmin käytetty suhteellisen vapaa yhdyssanojen tunnistaminen on
peittänyt alleen sanaston puutteita. Merkittäviä ovat ainakin tietyntyyppiset
sanat, joissa on mukana -inen -johdin. Näitä joudumme korjaamaan mm.
etuliitteitä lisäämällä (tai jollain vastaavalla tavalla, mekanismia on vielä
vähän pohdittava), lisäämällä -nen -päätteisiä sukunimiä sanastoon (niistä
puuttuu merkittävä osa) ja lisäämällä "inen" -lippuja joihinkin nimisanoihin.
Kalle: voisitko käydä wikipedian aineiston uudestaan läpi tällä uusimmalla
SVN-versiolla ja lähettää minulle joko täydellisen listan (sanojen
kaksoiskappaleet mukaan lukien) tai vielä paremmin, tehdä sille
cat tunnistumattomat.txt | sort | uniq -c | sort -nr
ja lähettää tänne listalle vaikka sata ensimmäistä riviä. Katsoisin siitä,
mitkä ovat käytännössä eniten harmia aiheuttavia puutteita ja korjaisin ne
ettei 1.0-versioon jäisi mitään todella noloja aukkoja.
Kaikki muutkin: nyt on hyvä aika tarkistaa Voikolla hallussanne olevia
suomenkielisiä tekstejä (käyttäkää Suomi-malagan SVN-versiota tai odottakaa,
että Teemu saa siitä uudet Debian-paketit tehtyä) ja kertokaa tällä listalla
pahimmista puutteista. Vähemmän kiireellisiä sanoja voi laittaa
sanastonkeruusovellukseen.
Harri
More information about the devel
mailing list