[hunspell-fi-devel] Sanoja webbisivuilta

Harri Pitkänen hatapitk at cc.jyu.fi
Wed Nov 30 22:43:24 EET 2005


On Tuesday 29 November 2005 23:16, Reijo Tomperi wrote:
> Lisää sanoja sivuilta liitteenä.

Sanat on nyt lisätty. Epäselvimmät tapaukset jätin pois. Lisäksi kaikki 
tekemistä ilmaisevat substaintiivit, niitä varten lisäsin johdintaulukkoon 
uuden rivin, eli juokseminen, oleminen jne. johdetaan vastaavasta verbistä 
automaattisesti.

Toinen ongelma, jonka huomasin, on se, että tuolla listassa oli sanoja kuten 
oikeus ja paksuus, joita ei ole välttämättä sellaisenaan sanastossa, mutta 
jotka jo nykyään johdetaan vastaavista adjektiiveista. Nythän on niin, ettei 
tuo sanojenkeruusovellus osaa hylätä tällaisia sanoja. Enpä tiedä, miten 
tähän tilanteeseen saisi parannusta aikaiseksi. Luultavasti ainoa toimiva 
tapa olisi jotenkin hyödyntää tuota Jorin oikolukusovellusta, eli pakottaa 
kaikki syötettävät sanat kulkemaan jotenkin sitä kautta. Jos ei muuten, niin 
laittamalla vaikka sanojen käysliittymään ohjeeksi, että kaikki syötettävät 
sanat on ensin käytettävä Jorin tekemän sovelluksen kautta ja ainoastaan 
hylätyt sanat saa lisätä tietokantaan. Mutkikastahan tämäkin tietysti on.

Kunnes tähän keksitään toimiva ratkaisu, pyytäisin teitä Reijo ja Jarno 
ajamaan www-liittymän kautta saadut sanalistat Hunspellin läpi ja poistamaan 
tunnistetut sanat ennen kuin alatte luokittelemaan niitä. Tähän tarkoitukseen 
voi käyttää ainakin toistaiseksi OpenOfficen Hunspell-komponenttia, sen 
ominaisuudet riittävät tähän. Ja tietysti kaikki tunnistetu sanat pitää 
edelleen käsin käydä poistamassa sanastonkeruuohjelmasta.

Harri



More information about the devel mailing list