[voikko] muutamia huomioita Sukijasta
Harri Pitkänen
hatapitk at iki.fi
Sat Sep 3 12:45:48 EEST 2011
Hei!
Vastaan tähän lähinnä Voikon näkökulmasta, Hannu tietää paremmin Sukijasta.
On Saturday 03 September 2011, Tuomas Salo wrote:
> Onkohan paljonkin sanoja, jotka Sukija kertoo perusmuodoiksi mutta joita
> Voikko ei tunnista lainkaan? Mistä tämä johtuu - ovatko sanastot (yhä?)
> jotenkin niin erilliset?
Sukijan sanasto on tarkoituksella laajempi kuin Voikon. Voikosta on jätetty
pois mm. puhekielisiä ja käytöstä poistuneita sanoja. Lisäksi eräiden
erikoisalojen (mm. lääketiede, fysiikka ja tietotekniikka) yleiskielessä
harvinaiset termit on jätetty Voikon perussanastosta pois. Suurin osa näistä
on Sukijassa mukana.
Laajempia sanastoja on Voikollekin tarjolla, yksi niistä on asennettuna myös
Webvoikkoon.
Syy tähän on se, että haluamme Voikon tunnistavan kirjoitusvirheet
mahdollisimman suurella todennäköisyydellä. Sukijassa kirjoitusvirheet taas
eivät haittaa, joten siinä laajempi sanasto on hyödyllisempi.
> Olisiko hyötyä jopa syöttää Sukijan suoltamia
> perusmuotoja Voikolle ja etsiä ei-tunnistettuja?
Tätä voi kokeilla, koska joukosta saattaa hyvinkin löytyä sanoja, jotka
saisivat olla mukana myös Voikossa.
> Muutamia puuttuvia sanoja:
>
> - ict-ala
> - inkerinsuomalainen
> - pähkinäinen
> - pääpiirteittäinen (onko tarvettakaan?)
> - Schengen-alue
>
> - Benin
> - Benelux-maat
> - Kazakstan (mutta "Kazahstan" löytyy)
>
> - Bergen
> - Bratislava
> - Bukarest
> - Göteborg
> - yms.
>
> - Wuolijoki (harvinainen mutta tunnettu sukunimi)
Voin katsoa nämä läpi ja lisätä tarvittavat sanastoon. "Pähkinäinen" hoituikin
jo, eli sanalta "pähkinä" puuttui merkintä "inen-johdin aina sallittu".
> Lisäksi "Ison-Britannian" palautuu (vain) muotoon "Ison-Britannia",
> "Isoa-Britanniaa" muotoon "Isoa-Britannia" jne., minkä näkisin haittaavan
> hakusovelluksia. Luultavasti muitakin esimerkkejä löytyy.
>
> Tähän jossain määrin liittyen: "Paasikiven-Kekkosen" palautuu (vain, mutta
> jostain syystä kahdesti) muotoon "Paasikiven-Kekkonen", mutta tästä ei
> liene niin paljon haittaa hauissa, sikäli kun myös hakutermit palautetaan
> perusmuotoon.
Nämä ovat tunnettuja vikoja ja koskevat myös Voikkoa. Täytyy joskus katsoa,
voisiko näitä korjata.
> Outoja tunnistuksia:
>
> - suomenkieli (<suomenkielistä), ruotsinkieli (myös voikko hyväksyy nämä!)
Johtuu siitä, että "suomi" ja "ruotsi" ovat kielen niminä tavallisia
substantiiveja, jolloin nämä hyväksytään normaalien yhdyssanasääntöjen mukaan.
Voisi ehkä olla hyödyllistä käsitellä kielten nimiä erikoistapauksina ainakin
Voikossa, koska nämä ovat varsin tyypillisiä kielivirheitä, jotka olisi hyvä
havaita oikoluvussa.
> - maattaa (=maadoittaa - käytännössä ilmeisesti aika epäsana)
Tämän voisi merkitä harvinaiseksi/haitalliseksi (esim. yleisyysluokka 9,
sekoittuu helposti yleisempään sanaan).
> Ja taas luovia yhdyssanoja, joille ei enimmäkseen voine mitään, eikä
> varsinaisesti tarvikaan:
Kiitos näistäkin, katson nekin tarkemmin läpi myöhemmin. Yksi kuitenkin osui
silmään: "vapaussotureisi" sisältää sanan "sotu", joka ilmeisesti on lyhenne
sosiaaliturvatunnuksesta. Koska sosiaaliturvatunnus itsessäänkin on
vanhentunut termi, voisi sotun poistaa oikolukusanastosta kokonaan. Ellei se
sitten tarkoita jotain muuta?
Harri
More information about the voikko
mailing list