[voikko] tmispell, kyselen tyhmiä

Tapio Lehtonen tapio.lehtonen at dnainternet.net
Thu Sep 3 22:22:20 EEST 2009


On Thu, Sep 03, 2009 at 08:47:29PM +0300, Harri Pitkänen wrote:
> Hei!
> 
> Kiitos palautteesta! Kommentoin tähän muutamia kysymyksiä. Tmispelliä minulla 
> ei ole enää itselläni asennettuna, joten siihen liittyviin outouksiin en nyt 
> ehdi perehtymään.
> Pisteen aiheuttamista ongelmista pääsisit käyttämällä Tmispellin sijasta 
> Enchantia. Muutkin puutteet tullaan varmaan ennemmin korjaamaan siihen kuin 
> Tmispelliin, jonka kehittäminen on käytännössä lopetettu. Jotkin usein 
> toistuvat sanat (esim. "Alpha") voitaisiin lisätä Voikon po-oikolukusanastoon, 
> jolloin taivutusmuodot ja yhdysmerkit sanan lopussa tunnistettaisiin 
> automaattisesti. Kaikkein harvinaisimmat sanat on vaivattominta lisätä 
> erikseen, muoto kerrallaan, henkilökohtaiseen sanastoon.
> 
> Harri
> 

Kokeilin nyt enchant -l testiaineistolleni, eli Debian Installation
Manualin suomennokselle. Enchant löysi 3813 tuntematonta sanaa,
tmispell löysi 3440. Mutta enchant taitaa löytää vähemmään vääriä
negatiivisia, kun poistan sanat joissa on numeromerkkejä. Tässä alku
Enchantin listasta:

0_
00-06-2B-01-32-B0
0123456789AB
02111-1307
08-00-2B-86-98-54
08-00-2B-86-98-65
0-9
0e
0f1
0x01800000
0x13
0x170-0x177
0x376
0x378
0x800-0x8ff
1000A
1024x768
16xBug
190cs
1b
1e
2005-12-12
200-640CD
2048kB
210-550c
24X
24xx
26xx
27xx
286-suoritinta
2-hiiri
2x
32-bit
32-bittiä
32x

Noita numeroita on minusta turha ottaa mukaan oikolukuun. 

Kun poistan sanat joissa esiintyy numeromerkki, jää jäljelle 3309. On
tämä vähän parempi, ja jos enchant kerran on vielä kehittyvä sovellus
niin vaihdampa käyttämään sitä. Tästä Debianistakin löytyi komento
enchant, tulee paketissa libenchant1c2a. Kummaa kun lib-paketissa on
komentoja. Ihmettelinkin miksei enchantille ollut käyttöliittymää kun
ajoaikaiset kirjastot oli. 

Pitäisikö tavuviivan molemmat puolet tarkistaa erillisinä? Nyt kun
riivin pois sanan 286-suoritinta, en huomaa väärin kirjoitettua
286-suotirinta.

En nyt heti keksi miten enchantille annetaan sanalista, suomenkielisen
tekstin seassa on paljon englanninkielen sanoja, jotka pitäisi saada
lisättyä oikeiden sanojen luetteloon. Enchant -l tulostus näyttää aika
odotetulta, jos tavuviivan käsittelyä ei oteta lukuun, eipä taitaisi
suomenkielen oikoluvun kuuluakaan hyväksyä alla olevia sanoja. Vissiin
riittää jos sanalistaan pistää access, sitten kelpaa myös Access?

aa
AA
aboot
aboot-käynnistyslataimelle
abort
about
access
Access
Acpi
ACSII-
ACSI-laite
ada
Adaptec
adb
ADB-hiiren
ADB-ohjaimesta
add-kernel-opts
address
Address
Addressing
adduser
administration
Administrator
Advanced
AdvFS
aes
AES
AES-avaimella
aesnnuksen
afbinit
AFFS-tiedostojärjestelmän
against
Agent
AGP
AGP-


-- 
Tapio Lehtonen
tapio.lehtonen at iki.fi
http://www.iki.fi/tapio.lehtonen
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 197 bytes
Desc: Digital signature
URL: <http://lists.puimula.org/pipermail/voikko/attachments/20090903/5e8f7765/attachment.sig>


More information about the voikko mailing list