[hunspell-fi-devel] Sukija, suomen kielt ymmrtv indeksointi- ja oikolukuohjelma, versio 0.2
Harri Pitkänen
hatapitk at cc.jyu.fi
Tue Feb 28 11:18:40 EET 2006
On Tuesday 28 February 2006 07:48, Hannu Väisänen wrote:
> > Tuossahan oli kyse vain väärästä vokaalityypistä taivutuspäätteissä.
> > Hunspell-fi -sanastossa nämä päätellään koneellisesti algoritmilla, jonka
> > kirjoitin Nykysuomen käsikirjassa esitettyjen sääntöjen pohjalta.
>
> Ai, onko semmoinen algoritmi olemassa? (-:
Tällaista olen käyttänyt. Yhdyssanoilla tämä ei välttämättä toimi, mutta tämä
voidaan kiertää käyttämällä algoritmia ainoastaan yhdyssanan jälkimmäiseen
osaan (jakokohta pitää olla sanastossa merkittynä joka tapauksessa muistakin
syistä):
# Function that returns the type of vowels that are allowed in the affixes for
given word.
# The possible values are VOWEL_FRONT, VOWEL_BACK and VOWEL_BOTH.
VOWEL_FRONT=1
VOWEL_BACK=2
VOWEL_BOTH=3
def vowel_type(word):
word = word.lower()
last_back = max(word.rfind('a'), word.rfind('o'), word.rfind('u'))
last_ord_front = max(word.rfind(u'ä'), word.rfind(u'ö'))
last_y = word.rfind('y')
if last_back > -1 and max(last_ord_front, last_y) == -1:
return VOWEL_BACK
if last_back == -1 and max(last_ord_front, last_y) > -1:
return VOWEL_FRONT
if max(last_back, last_ord_front, last_y) == -1:
return VOWEL_FRONT
if last_y < max(last_back, last_ord_front):
if last_back > last_ord_front: return VOWEL_BACK
else: return VOWEL_FRONT
else:
return VOWEL_BOTH
> > Mietin myös, että voisiko tuon alku-kentän sisällön myös generoida
> > automaattisesti jollakin tavalla vai sisältääkö se jotain informaatiota
> > joka on pääteltävä tapauskohtaisesti?
>
> Malagassa? Malaga käsittelee merkkijonoja vasemmalta oikealle...
Ei välttämättä Malagassa. Ajatukseni on se, että jos meillä on tietokanta,
joka sisältää sanan perusmuodossa ja luokituksen (sanaluokka, taivutusluokka,
astevaihteluluokka) niin onko ylipäätään mahdollista tehdä ohjelmaa, joka
näiden tietojen perusteella generoisi tuon kentän sisällön?
Kysehän on siitä, että ennemmin tai myöhemmin meidän on Hunspell-fi
-projektissa palattava sanaston kokoamisen pariin, ja jos päädymme käyttämään
Suomi-Malagaa (mikä tässä vaiheessa alkaa vaikuttaa aika todennäköiseltä)
niin tieto on saatava liikkumaan sanastotietokannan ja Malagan välillä. Sitä
varten yritän tässä pohdiskella, että onko tietokannan kenttiin tai
käyttämäämme luokitukseen tehtävä muutoksia jotta kaikki Malagan tarvitsema
tieto saadaan tallennettua, vai voimmeko jatkaa vanhaan malliin.
Harri
More information about the devel
mailing list