[hunspell-fi-devel] Sanoja Ris -röö

Harri Pitkänen hatapitk at cc.jyu.fi
Thu Nov 3 18:01:49 EET 2005


On Wednesday 02 November 2005 22:56, Reijo Tomperi wrote:
> Tässä siis loput r-alkuiset substantiivit mitä sain Ispell-sanastosta
> kaivettua (adjektiiveihin en ole uskaltanut paneutua ollenkaan).

Lisäsin sanat. Siellä oli joitakin erikoisempia tapauksia, kuten sana 
"ruumis", jolle ei aikaisemmin ollut luokkaa. Se taipuu samalla tavalla kuin 
luokan a2 sanat, joten lisäsin sen tuohon samaan luokkaan ja korjasin 
ohjelmat ja dokumentaation vastaamaan tätä tilannetta. Sitten toinen hankala 
tapaus oli "rumpali". Sille tosiaankaan ei ole omaa luokkaa, mutta tällä 
hetkellä luokittelemme sen luokkaan subst-p, vaikkakin tuossa luokassa siltä 
jää taivutusmuoto "rumpaleiden" tunnistamatta. Kuitenkin myös "rumpalien" on 
oikein, ja se tunnistetaan tuossa luokassa. Olen jättänyt monia tällaisia 
luokkia lisäämättä tässä vaiheessa, sillä niitä on itse asiassa pari kymmentä 
kappaletta, ja jos lisäisin ne jo nyt, luokittelu kävisi hyvin hankalaksi. 
Tehdään niin, että käymme nämä läpi myöhemmin sanaston oikoluvun yhteydessä, 
ei ole mielestäni suuri synti jos siihen asti meiltä jää joitakin 
rinnakkaismuotoja tunnistamatta, kun emme kuitenkaan tunnista virheellisiä 
muotoja.
Myös sellainen ohje, että älkää (ainakaan yleensä) luokitelko sanoja luokkaan 
merkkisana. Noille sanoille minun on erikseen kirjoitettava taivutukset 
poikkeustiedostoon, ja ennen kuin se on tehty, oikea luokka on subst-luokitt. 
Merkkisanat laitetaan tietokantaan vain sitä varten, että pystyn helposti 
tarkistamaan, onko jokin sana jo sanastossa vai ei, ja ettei samaa sanaa 
vahingossa lisätä useampaan kertaan. Ne ohitetaan kokonaan sanaston 
generoinnin yhteydessä.

> Minulla on muuten myös lista maiden nimistä. 115 kappaletta (eli varmaan
> puolet puuttuu vielä), sisältää mahdollisesti kirjoitusvirheitä, ei
> luokituksia, mutta lähteenä pelkkä muisti (ei tosin omani vaan vaimon).
>
> Bangladeshit ja muut eksoottiset nimet eivät tosin minun taidoillani
> taivu (jos niille edes luokkaa löytyy?) ja jopa tavalliset maat
> tuottavat ylitsepääsemättömiä ongelmia (niitä kun harvoin esim. kuulee
> monikoissa), joten onko ehdotuksia mitä teen tänne listalle? No, laitan
> sen myös tähän viestiin liitteeksi, jos joku fiksumpi osaa sille jotain
> hyödyllistä tehdä.

Tuo on ihan hyvä lista pohjamateriaaliksi jollekin, joka osaa nuo sanat 
taivuttaa. Hankalien sanojen kohdalla sanakirjan käyttö on mielestäni ihan 
sallittua. Tarkoitushan on, että emme kopio mitään sanakirjasta, mutta totta 
kai sieltä saa tarkistaa asioita oppimismielessä. Sitä vartenhan ne ovat 
olemassa. Erisnimet pitää kuitenkin kirjoittaa isolla alkukirjaimella myös 
Hunspell-sanastoon, ja moniosaisia nimiä ei oikein mitenkään voi lisätä. 
Lisäsin huvikseni tuosta San Marinosta etuliitteen San sanastoon 
(partikkelina, en nyt oikein tiedä että miten se pitäisi luokitella), Marinon 
taivutuksesta en osaa sanoa mitään.

Siirrän kohta sivustolle tänään tekemiäni muutoksia. Tämän päivityksen 
yhteydessä pitää lisätä yksi uusi symbolinen linkki hakemistoon 
hunspell-fi/lib/python (hfutils.py -> ../../src/hfutils.py). Olen tehnyt myös 
muita muutoksia, joiden ei pitäisi varsinaisesti näkyä käyttäjille, mutta jos 
jotain hassua ilmenee, niin ilmoitelkaa. Sellainen asia on ehkä hyvä tietää, 
että jatkossa voitte käyttää sanalistoissa kommentteja aivan vapaasti, samoin 
tyhjiä rivejä jos siltä tuntuu. Olen kehittänyt listojen käsittelyprosessia 
niin, että ne eivät enää haittaa samalla tavalla kuin ennen.

Harri



More information about the devel mailing list