[hunspell-fi-devel] Sanoja webbisivuilta
Harri Pitkänen
hatapitk at cc.jyu.fi
Wed Nov 30 22:43:24 EET 2005
On Tuesday 29 November 2005 23:16, Reijo Tomperi wrote:
> Lisää sanoja sivuilta liitteenä.
Sanat on nyt lisätty. Epäselvimmät tapaukset jätin pois. Lisäksi kaikki
tekemistä ilmaisevat substaintiivit, niitä varten lisäsin johdintaulukkoon
uuden rivin, eli juokseminen, oleminen jne. johdetaan vastaavasta verbistä
automaattisesti.
Toinen ongelma, jonka huomasin, on se, että tuolla listassa oli sanoja kuten
oikeus ja paksuus, joita ei ole välttämättä sellaisenaan sanastossa, mutta
jotka jo nykyään johdetaan vastaavista adjektiiveista. Nythän on niin, ettei
tuo sanojenkeruusovellus osaa hylätä tällaisia sanoja. Enpä tiedä, miten
tähän tilanteeseen saisi parannusta aikaiseksi. Luultavasti ainoa toimiva
tapa olisi jotenkin hyödyntää tuota Jorin oikolukusovellusta, eli pakottaa
kaikki syötettävät sanat kulkemaan jotenkin sitä kautta. Jos ei muuten, niin
laittamalla vaikka sanojen käysliittymään ohjeeksi, että kaikki syötettävät
sanat on ensin käytettävä Jorin tekemän sovelluksen kautta ja ainoastaan
hylätyt sanat saa lisätä tietokantaan. Mutkikastahan tämäkin tietysti on.
Kunnes tähän keksitään toimiva ratkaisu, pyytäisin teitä Reijo ja Jarno
ajamaan www-liittymän kautta saadut sanalistat Hunspellin läpi ja poistamaan
tunnistetut sanat ennen kuin alatte luokittelemaan niitä. Tähän tarkoitukseen
voi käyttää ainakin toistaiseksi OpenOfficen Hunspell-komponenttia, sen
ominaisuudet riittävät tähän. Ja tietysti kaikki tunnistetu sanat pitää
edelleen käsin käydä poistamassa sanastonkeruuohjelmasta.
Harri
More information about the devel
mailing list