[voikko-devel] Suomi-malagoiden yhdistäminen

Hannu Väisänen hannu.vaisanen at joensuu.fi
Wed Feb 21 10:42:28 EET 2007


On Tue, Feb 20, 2007 at 02:33:12PM +0200, Harri Pitkänen wrote:
> Tämä on tosiaan sellainen asia, jonka suhteen ratkaisu pitäisi tehdä 
> mahdollisimman pian. Tammikuussa yhdistin kaiken mitä pystyin, mutta 
> ongelmakohdaksi muodostui tiedosto suomi.lex. Olisi hyödyllistä, jos 
> pystyisit tekemään sille jotain, sillä minä en oikein osaa hahmottaa niitä 
> kaikkia muutoksia jotka olet tiedostoon syksyn aikana tehnyt. Useimmat eivät 
> välttämättä vaikuta Voikkoon mitenkään, ja voit ihan vapaasti siirtää 
> sellaiset muutokset tiedostoon trunk/suomimalaga/suomi.lex. Myös rivien 
> järjestystä voit Voikko-versiossa vaihtaa haluamaksesi, minulla ei ole siihen 
> asiaan mitään erityistä kantaa. Katsotaan sitten yhdessä hankalammat kohdat 
> läpi.

Ongelma oli se, että kun suomi.all oli vielä kirjoitettu käsin, osa
taivutuskaavoista oli kahdesti: tiedostossa suomi.all ja tiedostossa
suomi.lex (ja ne eivät aina olleet samat). Olen muuttanut jälkimmäisen
käyttämään taivutuskaavojen esimerkkisanoista generoituja
taivutuskaavoja, jotka siis ovat samat kuin generoidussa tiedostossa
suomi.all.

Mitäpä jos ensin muutan tiedostoa trunk/suomimalaga/suomi.lex niin,
että siinä ja original-version tiedostossa suomi.lex olevat samat
rivit ovat samassa järjestyksessä, ja katsotaan sitten, miten
jatketaan.


> Myös Suomi-malagan Makefileä pitää parannella Voikkoa varten. Olen jo 
> kokeellisesti tehnytkin uuden targetin "voikko-install", mutta tarvitsen myös 
> targetit "dist-gzip" (täysi lähdekoodipaketti) ja "voikko-dict-gzip" 
> (mukautettavan Voikko-sanaston osittainen lähdekoodipaketti). SVN:stä pitää 
> siivota pois postscript-tiedostot, ja Suomi-malagan lähdekoodipuun 
> päähakemisto pitäisi mielellään järjestää niin, että suomea osaamaton 
> ihminenkin suunnilleen hahmottaisi paketin rakenteen. Tällaisia asioita 
> ainakin tarvitaan jos halutaan Suomi-malagat yhdistää.

Tehdään näin. Kerro vaan, mitä siivotaan pois ja miten jäljelle
jäävät tiedostot järjestetään.


Sanaston suhteen olen ajatellut seuraavaa: Siirrettään sanastosta pois
taivutustyyppeihin perustuva virheellisten/vanhojen kirjoitusasujen
tunnistus. Näitä ovat muistaakseni vain tyypit ammo(i)ttaa (i:tön
muoto oikein nykysääntöjen mukaan) sekä kirjo(i)ttaa ja julka(i)sta
(i::lliset muodot oikein). Sukijaa varten nämä voi joko generoida
tiedostossa suomi.all (kuten original-versiossa tehdään tyypeille
*keltanen ja *hevoinen) tai tunnistaa indeksointiohjelmassa samaan
tapaan kuin voikko_suggest ehdottaa korjauksia kirjoitusasuun.
Jälkimmäisellä tavalla voi tunnistaa myös sivistyssanojen
vanhoja/virheellisiä kirjoitusasuja: obligatio, resolutio, alkohooli. [1]
(Älkää kuitenkaan tehkö vielä mitään tälle asialle. :-)

Tämän jälkeen sanastossa olisi vain yksittäisiä vääriä/vanhentuneita
kirjoitusasuja, esim. *ensimäinen, *sydämmellinen.


[1] Sukijan uusimmassa versiossa on jo osa näistä tiedostossa
lib/suggestion.{h,cc}. Sitä voi kokeilla esim. komennolla

echo resolutioksi | programs/korjaaja

Tuloksen pitäisi olla:

"resoluutio" resolutioksi


Taivutustyypeistä: Fred Karlssonin kirjassa Suomen kielen äänne- ja
muotorakenne olevien taivutustyyppitaulukoitten mukaan Nykysuomen
sanakirjassa on parisataa sanaa, joilla on jollain tavalla outo
taivutus (esim. nuorra = nuorena); 17 taivutustyyppiä on sellaisia,
jossa on vain yksi sana, esim. mies, ori, jumala, sankari. Näitä
sanoja on niin vähän, että ne voidaan käsitellä sanastossa
erikoistapauksina, mutta ihan harvinaisimpiä sanoja ei kannattane
laittaa oikolukusanastoonkaan.

Eräissä taivutustyypeissä olevat vanhentuneet muodot (esim. hevosna
(hevosena), kaunihilla kankahilla) voi hoitaa niin, että niitä ei
generoida taivutuskaavojen esimerkkisanoista Voikko-versioon.


Kotuksen sanastossa ja Nykysuomen sanakirjassa sanojen taivutustyyppi
voi olla erilainen, mutta tämä viesti on muutenkin jo niin pitkä, että
jatkan myöhemmin.



More information about the devel mailing list