[voikko] muutamia huomioita Sukijasta

Harri Pitkänen hatapitk at iki.fi
Sat Sep 3 12:45:48 EEST 2011


Hei!

Vastaan tähän lähinnä Voikon näkökulmasta, Hannu tietää paremmin Sukijasta.

On Saturday 03 September 2011, Tuomas Salo wrote:
> Onkohan paljonkin sanoja, jotka Sukija kertoo perusmuodoiksi mutta joita
> Voikko ei tunnista lainkaan? Mistä tämä johtuu - ovatko sanastot (yhä?)
> jotenkin niin erilliset?

Sukijan sanasto on tarkoituksella laajempi kuin Voikon. Voikosta on jätetty 
pois mm. puhekielisiä ja käytöstä poistuneita sanoja. Lisäksi eräiden 
erikoisalojen (mm. lääketiede, fysiikka ja tietotekniikka) yleiskielessä 
harvinaiset termit on jätetty Voikon perussanastosta pois. Suurin osa näistä 
on Sukijassa mukana.

Laajempia sanastoja on Voikollekin tarjolla, yksi niistä on asennettuna myös 
Webvoikkoon.

Syy tähän on se, että haluamme Voikon tunnistavan kirjoitusvirheet 
mahdollisimman suurella todennäköisyydellä. Sukijassa kirjoitusvirheet taas 
eivät haittaa, joten siinä laajempi sanasto on hyödyllisempi.

> Olisiko hyötyä jopa syöttää Sukijan suoltamia
> perusmuotoja Voikolle ja etsiä ei-tunnistettuja?

Tätä voi kokeilla, koska joukosta saattaa hyvinkin löytyä sanoja, jotka 
saisivat olla mukana myös Voikossa.

> Muutamia puuttuvia sanoja:
> 
> - ict-ala
> - inkerinsuomalainen
> - pähkinäinen
> - pääpiirteittäinen (onko tarvettakaan?)
> - Schengen-alue
> 
> - Benin
> - Benelux-maat
> - Kazakstan (mutta "Kazahstan" löytyy)
> 
> - Bergen
> - Bratislava
> - Bukarest
> - Göteborg
> - yms.
> 
> - Wuolijoki (harvinainen mutta tunnettu sukunimi)

Voin katsoa nämä läpi ja lisätä tarvittavat sanastoon. "Pähkinäinen" hoituikin 
jo, eli sanalta "pähkinä" puuttui merkintä "inen-johdin aina sallittu".

> Lisäksi "Ison-Britannian" palautuu (vain) muotoon "Ison-Britannia",
> "Isoa-Britanniaa" muotoon "Isoa-Britannia" jne., minkä näkisin haittaavan
> hakusovelluksia. Luultavasti muitakin esimerkkejä löytyy.
> 
> Tähän jossain määrin liittyen: "Paasikiven-Kekkosen" palautuu (vain, mutta
> jostain syystä kahdesti) muotoon "Paasikiven-Kekkonen", mutta tästä ei
> liene niin paljon haittaa hauissa, sikäli kun myös hakutermit palautetaan
> perusmuotoon.

Nämä ovat tunnettuja vikoja ja koskevat myös Voikkoa. Täytyy joskus katsoa, 
voisiko näitä korjata.

> Outoja tunnistuksia:
> 
> - suomenkieli (<suomenkielistä), ruotsinkieli (myös voikko hyväksyy nämä!)

Johtuu siitä, että "suomi" ja "ruotsi" ovat kielen niminä tavallisia 
substantiiveja, jolloin nämä hyväksytään normaalien yhdyssanasääntöjen mukaan. 
Voisi ehkä olla hyödyllistä käsitellä kielten nimiä erikoistapauksina ainakin 
Voikossa, koska nämä ovat varsin tyypillisiä kielivirheitä, jotka olisi hyvä 
havaita oikoluvussa.

> - maattaa (=maadoittaa - käytännössä ilmeisesti aika epäsana)

Tämän voisi merkitä harvinaiseksi/haitalliseksi (esim. yleisyysluokka 9, 
sekoittuu helposti yleisempään sanaan).

> Ja taas luovia yhdyssanoja, joille ei enimmäkseen voine mitään, eikä
> varsinaisesti tarvikaan:

Kiitos näistäkin, katson nekin tarkemmin läpi myöhemmin. Yksi kuitenkin osui 
silmään: "vapaussotureisi" sisältää sanan "sotu", joka ilmeisesti on lyhenne 
sosiaaliturvatunnuksesta. Koska sosiaaliturvatunnus itsessäänkin on 
vanhentunut termi, voisi sotun poistaa oikolukusanastosta kokonaan. Ellei se 
sitten tarkoita jotain muuta?

Harri



More information about the voikko mailing list