[hunspell-fi-devel] Sanoja Ris -röö
Harri Pitkänen
hatapitk at cc.jyu.fi
Thu Nov 3 18:01:49 EET 2005
On Wednesday 02 November 2005 22:56, Reijo Tomperi wrote:
> Tässä siis loput r-alkuiset substantiivit mitä sain Ispell-sanastosta
> kaivettua (adjektiiveihin en ole uskaltanut paneutua ollenkaan).
Lisäsin sanat. Siellä oli joitakin erikoisempia tapauksia, kuten sana
"ruumis", jolle ei aikaisemmin ollut luokkaa. Se taipuu samalla tavalla kuin
luokan a2 sanat, joten lisäsin sen tuohon samaan luokkaan ja korjasin
ohjelmat ja dokumentaation vastaamaan tätä tilannetta. Sitten toinen hankala
tapaus oli "rumpali". Sille tosiaankaan ei ole omaa luokkaa, mutta tällä
hetkellä luokittelemme sen luokkaan subst-p, vaikkakin tuossa luokassa siltä
jää taivutusmuoto "rumpaleiden" tunnistamatta. Kuitenkin myös "rumpalien" on
oikein, ja se tunnistetaan tuossa luokassa. Olen jättänyt monia tällaisia
luokkia lisäämättä tässä vaiheessa, sillä niitä on itse asiassa pari kymmentä
kappaletta, ja jos lisäisin ne jo nyt, luokittelu kävisi hyvin hankalaksi.
Tehdään niin, että käymme nämä läpi myöhemmin sanaston oikoluvun yhteydessä,
ei ole mielestäni suuri synti jos siihen asti meiltä jää joitakin
rinnakkaismuotoja tunnistamatta, kun emme kuitenkaan tunnista virheellisiä
muotoja.
Myös sellainen ohje, että älkää (ainakaan yleensä) luokitelko sanoja luokkaan
merkkisana. Noille sanoille minun on erikseen kirjoitettava taivutukset
poikkeustiedostoon, ja ennen kuin se on tehty, oikea luokka on subst-luokitt.
Merkkisanat laitetaan tietokantaan vain sitä varten, että pystyn helposti
tarkistamaan, onko jokin sana jo sanastossa vai ei, ja ettei samaa sanaa
vahingossa lisätä useampaan kertaan. Ne ohitetaan kokonaan sanaston
generoinnin yhteydessä.
> Minulla on muuten myös lista maiden nimistä. 115 kappaletta (eli varmaan
> puolet puuttuu vielä), sisältää mahdollisesti kirjoitusvirheitä, ei
> luokituksia, mutta lähteenä pelkkä muisti (ei tosin omani vaan vaimon).
>
> Bangladeshit ja muut eksoottiset nimet eivät tosin minun taidoillani
> taivu (jos niille edes luokkaa löytyy?) ja jopa tavalliset maat
> tuottavat ylitsepääsemättömiä ongelmia (niitä kun harvoin esim. kuulee
> monikoissa), joten onko ehdotuksia mitä teen tänne listalle? No, laitan
> sen myös tähän viestiin liitteeksi, jos joku fiksumpi osaa sille jotain
> hyödyllistä tehdä.
Tuo on ihan hyvä lista pohjamateriaaliksi jollekin, joka osaa nuo sanat
taivuttaa. Hankalien sanojen kohdalla sanakirjan käyttö on mielestäni ihan
sallittua. Tarkoitushan on, että emme kopio mitään sanakirjasta, mutta totta
kai sieltä saa tarkistaa asioita oppimismielessä. Sitä vartenhan ne ovat
olemassa. Erisnimet pitää kuitenkin kirjoittaa isolla alkukirjaimella myös
Hunspell-sanastoon, ja moniosaisia nimiä ei oikein mitenkään voi lisätä.
Lisäsin huvikseni tuosta San Marinosta etuliitteen San sanastoon
(partikkelina, en nyt oikein tiedä että miten se pitäisi luokitella), Marinon
taivutuksesta en osaa sanoa mitään.
Siirrän kohta sivustolle tänään tekemiäni muutoksia. Tämän päivityksen
yhteydessä pitää lisätä yksi uusi symbolinen linkki hakemistoon
hunspell-fi/lib/python (hfutils.py -> ../../src/hfutils.py). Olen tehnyt myös
muita muutoksia, joiden ei pitäisi varsinaisesti näkyä käyttäjille, mutta jos
jotain hassua ilmenee, niin ilmoitelkaa. Sellainen asia on ehkä hyvä tietää,
että jatkossa voitte käyttää sanalistoissa kommentteja aivan vapaasti, samoin
tyhjiä rivejä jos siltä tuntuu. Olen kehittänyt listojen käsittelyprosessia
niin, että ne eivät enää haittaa samalla tavalla kuin ennen.
Harri
More information about the devel
mailing list