[hunspell-fi-devel] fi-spesifisen koodin lisääminen hunspell:iin itseensä

Tor Lillqvist tml at novell.com
Tue Jan 17 14:45:34 EET 2006


hf-testaa -skriptissä (tai siis hunspellfi.py:ssä) on toiminnallisuutta
joka pitäisi varmaan siirtää suoraan hunspell:in lähdekoodiin. Tarkoitan
siis sitä vokaalisointuun ja liitepartikkeleihin liittyvää koodia. Onko
kukaan tekemässä tätä vai teenkö itse? hunspell:issahan on muutenkin
kielispesifistä koodia (lähinnä unkaria varten, siitähän sen nimikin
tulee), joten ei sen koodi paljon rumemmaksi tulisi vaikka siihen
lisäisi myös suomelle erikoiskäsittelyä...

(Sinänsähän on aika rumaa että hunspell:in lähdekoodissa nimenomaan on
kielispesifisiä koodinpätkiä, paljon elegantimpaahan olisi lisätä
abstraktiota ja käsitellä vain "ominaisuuksia", joita sitten eri
kielissä on eri osajoukko. Todennäköisesti esimerkiksi virossa ja
suomessa olisi joukko yhteisiä tällaisia ominaisuuksia, muttei
kuitenkaan niin että molemmissa olisi täsmälleen samat.)

Entäs sitten astevaihtelut, eikö olisi suoraviivaisempaa jos
suhteellisen selvät säännönmukaisuudet hoidettaisiin suoraan
hunspell:issa eikä affiksisäännöilä. En tarkkaan itsekään tiedä mitä
tarkoitan ;-) enkä todellakaan ole kielitieteilija, mutta toivottavasti
ymmärrätte suurinpiirtein mihin pyrin...

Olenko muuten ymmärtänyt hunspell:in toimintaa yhdyssanojen suhteen
oikein, että sille pitää tosiaan kertoa erikseen mitkä sanat voivat
muodostaa yhdyssanojen alku- ja loppuosia? Tämähän ei suomeen sovi
kovinkaan hyvin koska yhdyssanoja voi (ja pitää) muodostaa aika
vapaasti, vai mitä? Siihen liittyen, olisi varmaan kiva jos hunspell
joskus tarjoaisi mahdollisuuden löytää myös hyvin yleisen Lappeen Ranta
-taudin ilmentymiä. Hmm, toisaalta se kai voi olla aika vaikeata,
riippuu kai usein yhteydestä pitääkö sanat kirjoittaa yhteen vai ei,
vrt. "kaikki vieraat saivat eteensä Dominot, koiran keksi laitettiin sen
kulhoon" vs. "ota koirankeksi paketista ja anna hurtalle". No tuo ehkä
oli kaukaa haettu esimerkki. 

Entäs pitäisikö hunspell:in osata korjata linjaauto -sanaa
linja-auto:ksi? (Tehdäänköhän oikeasti paljon sellaisia
kirjoitusvirheitä?) 

--tml





More information about the devel mailing list