[hunspell-fi-devel] Sanalista

Harri Pitkänen hatapitk at cc.jyu.fi
Sat Jun 17 22:52:58 EEST 2006


On Saturday 17 June 2006 21:27, Teemu Likonen wrote:
> Onko mahdollista helposti generoida sanalistaa Voikko/Suomi-malagasta?
> Käytännössä siis kaikkien sanavartalojen kaikki taivutukset. Sanojen
> "loputtomat" erilaiset yhdyssanamuodostelmat ovat varmaankin ongelma.
>
> Olen tässä keskustellut Vim-editorin tekijän Bram Moolenaarin kanssa
> Vimin oikoluvun soveltuvuudesta suomen kieleen. Vim käyttää omaa
> sanalistaformaattiaan, jonka se osaa luoda myspellin .dic- ja
> .aff-tiedostoista tai vaikka puhtaasta sanalistasta.
>
> Vimissä ei ole sisäänrakennettua [ia]spell-käyttöliittymää, mutta sille
> on vimspell-niminen skripti, joka käyttää [ia]spelliä oikolukuun.
> Käyttäjän kannalta sisäänrakennettu oikoluku olisi kuitenkin parempi
> vaihtoehto. Bram kertoi, että esim. 100 miljoonaa sanaa sisältävä lista
> ei pitäisi olla ongelma. Onko tuollaisen "puhtaan" sanalistan
> tuottaminen mahdollista Voikko/Suomi-malagasta?

Teoriassa jonkinlaisen listan voi tuottaa, mutta jollakin tavalla sitä on 
rajattava (taivutusmuotojen tai sanojen yhdistelyn osalta) että sen saa 100 
miljoonaan sanaan mahtumaan. Ihan helposti tuota listaa ei vielä saa, parin 
kuukauden päästä ehkä vähän paremmin. Minulla on aikomuksena generoida 
Hunspell-yhteensopiva sanasto joskus syksyllä (ihan vain huvin vuoksi, tai 
oikeastaan siksi että tämä projekti tuottaisi edes jotain nimeensä 
viittaavaa). Se on jo aika lähellä Myspellin formaattia joten sellaisesta 
voisi kyllä lähteä liikkeelle.

Parempi varmaan olisi kuitenkin yrittää muunnosta suoraan vimin 
sanalistaformaattiin. Jos olen oikein ymmärtänyt, vimin oikoluku on 
suhteellisen pitkälle kehitelty, mahdollisesti jopa parempi kuin Hunspell. 
Siksi ei kannata tehdä muunnosta heikompien formaattien kautta. Tällä tavalla 
voisi saada aikaiseksi jotain hyödyllisempää, mutta vähän vaivaa joutuu 
näkemään.

Onko jotain erityistä syytä miksi tuon ulkoisen oikoluvun käytön tarvitsee 
olla käyttäjälle vaikeampaa? Eikö vimin oikolukua voisi modifioida niin, että 
jos kielelle X ei löydy vimin omaa sanastoa, ohjelma kokeilisi 
automaattisesti onko ispelliä tai aspelliä asennettu ja tukeeko jompi kumpi 
niistä kyseistä kieltä X. Jos tukee, oikoluku ohjataan tämän kautta ja 
käyttäjän ei tarvitsisi tehdä mitään erityistä. Tämän ominaisuuden 
lisäämiseen ei luulisi menevän pahimmillaankaan paria päivää enempää, kun 
taas suomen sanaston lisääminen vimin oikolukuun on varmasti ainakin parin 
viikon urakka ja oikoluvun laatu jäisi silti heikommaksi kuin Voikolla.

Harri



More information about the devel mailing list