[hunspell-fi-devel] Sanalista
Harri Pitkänen
hatapitk at cc.jyu.fi
Sat Jun 17 22:52:58 EEST 2006
On Saturday 17 June 2006 21:27, Teemu Likonen wrote:
> Onko mahdollista helposti generoida sanalistaa Voikko/Suomi-malagasta?
> Käytännössä siis kaikkien sanavartalojen kaikki taivutukset. Sanojen
> "loputtomat" erilaiset yhdyssanamuodostelmat ovat varmaankin ongelma.
>
> Olen tässä keskustellut Vim-editorin tekijän Bram Moolenaarin kanssa
> Vimin oikoluvun soveltuvuudesta suomen kieleen. Vim käyttää omaa
> sanalistaformaattiaan, jonka se osaa luoda myspellin .dic- ja
> .aff-tiedostoista tai vaikka puhtaasta sanalistasta.
>
> Vimissä ei ole sisäänrakennettua [ia]spell-käyttöliittymää, mutta sille
> on vimspell-niminen skripti, joka käyttää [ia]spelliä oikolukuun.
> Käyttäjän kannalta sisäänrakennettu oikoluku olisi kuitenkin parempi
> vaihtoehto. Bram kertoi, että esim. 100 miljoonaa sanaa sisältävä lista
> ei pitäisi olla ongelma. Onko tuollaisen "puhtaan" sanalistan
> tuottaminen mahdollista Voikko/Suomi-malagasta?
Teoriassa jonkinlaisen listan voi tuottaa, mutta jollakin tavalla sitä on
rajattava (taivutusmuotojen tai sanojen yhdistelyn osalta) että sen saa 100
miljoonaan sanaan mahtumaan. Ihan helposti tuota listaa ei vielä saa, parin
kuukauden päästä ehkä vähän paremmin. Minulla on aikomuksena generoida
Hunspell-yhteensopiva sanasto joskus syksyllä (ihan vain huvin vuoksi, tai
oikeastaan siksi että tämä projekti tuottaisi edes jotain nimeensä
viittaavaa). Se on jo aika lähellä Myspellin formaattia joten sellaisesta
voisi kyllä lähteä liikkeelle.
Parempi varmaan olisi kuitenkin yrittää muunnosta suoraan vimin
sanalistaformaattiin. Jos olen oikein ymmärtänyt, vimin oikoluku on
suhteellisen pitkälle kehitelty, mahdollisesti jopa parempi kuin Hunspell.
Siksi ei kannata tehdä muunnosta heikompien formaattien kautta. Tällä tavalla
voisi saada aikaiseksi jotain hyödyllisempää, mutta vähän vaivaa joutuu
näkemään.
Onko jotain erityistä syytä miksi tuon ulkoisen oikoluvun käytön tarvitsee
olla käyttäjälle vaikeampaa? Eikö vimin oikolukua voisi modifioida niin, että
jos kielelle X ei löydy vimin omaa sanastoa, ohjelma kokeilisi
automaattisesti onko ispelliä tai aspelliä asennettu ja tukeeko jompi kumpi
niistä kyseistä kieltä X. Jos tukee, oikoluku ohjataan tämän kautta ja
käyttäjän ei tarvitsisi tehdä mitään erityistä. Tämän ominaisuuden
lisäämiseen ei luulisi menevän pahimmillaankaan paria päivää enempää, kun
taas suomen sanaston lisääminen vimin oikolukuun on varmasti ainakin parin
viikon urakka ja oikoluvun laatu jäisi silti heikommaksi kuin Voikolla.
Harri
More information about the devel
mailing list