[hunspell-fi-devel] Sukija, suomen kielt ymmrtv indeksointi- ja oikolukuohjelma, versio 0.2

Harri Pitkänen hatapitk at cc.jyu.fi
Tue Feb 28 11:18:40 EET 2006


On Tuesday 28 February 2006 07:48, Hannu Väisänen wrote:
> > Tuossahan oli kyse vain väärästä vokaalityypistä taivutuspäätteissä.
> > Hunspell-fi -sanastossa nämä päätellään koneellisesti algoritmilla, jonka
> > kirjoitin Nykysuomen käsikirjassa esitettyjen sääntöjen pohjalta.
>
> Ai, onko semmoinen algoritmi olemassa? (-:

Tällaista olen käyttänyt. Yhdyssanoilla tämä ei välttämättä toimi, mutta tämä 
voidaan kiertää käyttämällä algoritmia ainoastaan yhdyssanan jälkimmäiseen 
osaan (jakokohta pitää olla sanastossa merkittynä joka tapauksessa muistakin 
syistä):

# Function that returns the type of vowels that are allowed in the affixes for 
given word.
# The possible values are VOWEL_FRONT, VOWEL_BACK and VOWEL_BOTH.
VOWEL_FRONT=1
VOWEL_BACK=2
VOWEL_BOTH=3
def vowel_type(word):
	word = word.lower()
	last_back = max(word.rfind('a'), word.rfind('o'), word.rfind('u'))
	last_ord_front = max(word.rfind(u'ä'), word.rfind(u'ö'))
	last_y = word.rfind('y')
	if last_back > -1 and max(last_ord_front, last_y) == -1:
		return VOWEL_BACK
	if last_back == -1 and max(last_ord_front, last_y) > -1:
		return VOWEL_FRONT
	if max(last_back, last_ord_front, last_y) == -1:
		return VOWEL_FRONT
	if last_y < max(last_back, last_ord_front):
		if last_back > last_ord_front: return VOWEL_BACK
		else: return VOWEL_FRONT
	else:
		return VOWEL_BOTH

> > Mietin myös, että voisiko tuon alku-kentän sisällön myös generoida
> > automaattisesti jollakin tavalla vai sisältääkö se jotain informaatiota
> > joka on pääteltävä tapauskohtaisesti?
>
> Malagassa? Malaga käsittelee merkkijonoja vasemmalta oikealle...

Ei välttämättä Malagassa. Ajatukseni on se, että jos meillä on tietokanta, 
joka sisältää sanan perusmuodossa ja luokituksen (sanaluokka, taivutusluokka, 
astevaihteluluokka) niin onko ylipäätään mahdollista tehdä ohjelmaa, joka 
näiden tietojen perusteella generoisi tuon kentän sisällön?

Kysehän on siitä, että ennemmin tai myöhemmin meidän on Hunspell-fi 
-projektissa palattava sanaston kokoamisen pariin, ja jos päädymme käyttämään 
Suomi-Malagaa (mikä tässä vaiheessa alkaa vaikuttaa aika todennäköiseltä) 
niin tieto on saatava liikkumaan sanastotietokannan ja Malagan välillä. Sitä 
varten yritän tässä pohdiskella, että onko tietokannan kenttiin tai 
käyttämäämme luokitukseen tehtävä muutoksia jotta kaikki Malagan tarvitsema 
tieto saadaan tallennettua, vai voimmeko jatkaa vanhaan malliin.

Harri



More information about the devel mailing list