[voikko] sanastoista

Teemu Kanstrén tkanstren at gmail.com
Wed Dec 2 19:26:14 EET 2015


Juu kiitos Harri hyvistä vastauksista. Pitää kokeilla noita Voikon spell ja
suggest metodeita.

Tuo omati.. onkin typo, meni tuo välistä puuttuva pätkä ohi kun pitkää
listaa hylätyistä rullasin läpi.

Laitoin ilmeisesti reply enkä replyall tms kun ei mennyt listalle. Meneehän
se näinkin
On 2 Dec 2015 7:12 p.m., "Harri Pitkänen" <hatapitk at iki.fi> wrote:

> Hei!
>
> (Jostain syystä tämä viesti tuli vain minulle eikä postituslistalle.
> Vastaan
> nyt vain sinulle, mutta jos olit tarkoittanut viestin listalle, voit
> vapaasti
> forwardoida myös vastaukseni sinne.)
>
> On Wednesday 02 December 2015 16:43:00 you wrote:
> >  Onko sivustolla oleva sanasto nyt päivitetty? Sanastosivulla näytti
> > lukevan että olisi päivitetty Sunnuntaina iltapäivästä. En tiedä
> > tarkoittiko sanastoa vai jotain muuta.
>
> Kyllä, ne on päivitetty, tuo merkintä tarkoittaa juuri sitä.
>
> > Esim. alla olevia sanoja ei Voikko
> > sillä tunnistanut:
> >
> > käyttöönottaminen
> > tiedoksisaannista
> > tiedoksisaanti
> > omatitalotontiksi
> > milj
> > tammi-kesäkuun
> > huhti-kesäkuun
> > huhti-kesäkuulta
> >
> > Erinäisiä yhdyssanoja myös, kuten
> >
> > ict-toimintojen
> > kaupunki-nimityksen
> > suuntaa-antava
> > fennovoima-investointiin
> > energia-konsernin
> >
> > Yleisesti kuitenkin näyttää toimivan oikein hyvin.
>
> Näitä sanoja en vielä lisännyt sanastoon, koska ne ovat teknisesti
> hankalampia
> tapauksia. Osa niistä voidaan lisätä tuleviin versioihin. Ainakin "milj"
> (pitäisi olla "milj."), "omatitalotontiksi" (pitäisi olla
> "omakotitalotontiksi") ja "energia-konsernin" (kontekstista riippuen ehkä
> "energiakonsernin" tai "XXX energia -konsernin") ovat mielestäni väärin.
>
> > Tuon oikeinkirjoituksen osalta kaipaisin vähän erilaista lähestymistapaa.
> > Minua kiinnostaisi erikseen löytää ne potentiaalisesti väärinkirjoitetut
> > sanat, eli itse tietää mitkä ovat niitä väärinkirjoitettuja ja ehdotettu
> > korjaus. Jos Voikko automaattisesti niitä arpoo niin en tiedä milloin se
> > teki niin.
>
> Tämä kuulostaa oikoluvulta. Voikko-objektin spell-metodilla voit tarkistaa,
> onko sana oikein ja suggest-metodilla etsiä vääräksi tulkitulle sanalle
> mahdollisia korjausehdotuksia.
>
> > Tähän liittyen Hannu ehdottikin Sukijan käyttöä ja sen Suggest luokkaa.
> > Katselin tuossa hieman Sukijaa ja se näyttää olevan webbiapplikaatio
> Solr:n
> > päälle rakennettuna. Minua kiinnostaisi erillään siitä tuo Suggest
> > tyyppinen ehdottelu. Eli otin gitistä kloonin ja katselin miten saisin
> > palat sieltä ulos.
>
> Sukijan Suggest-luokat taitavat tehdä osittain samaa kuin Voikon suggest-
> metodi, mutta menevät pidemmälle etsiessään näitä ehdotuksia. Ilmeisesti ne
> voivat ehdottaa korjaukseksi myös sanoja, joita Voikko ei hyväksyisi oikein
> kirjoitetuksi.
>
> > Huomasin sitten että siinä oli erinäistä ongelmaa
> > kääntää koodia. Eli
> >
> > libvoikko oli riippuvuutena versio 3.7, se piti vaihtaa 3.6.1 että Maven
> > löysi sen. Onko tämä joku itse käännetty uusi version 3.7?
>
> On luultavasti. En ole julkaissut useimpia versioita Maven Centraliin
> siksi,
> että yleensä tuo Java-komponentti ei muutu versioiden välillä lainkaan, tai
> muutokset ovat epäoleellisia, eikä päivittämiselle siksi ole ollut
> tarvetta.
> Nyt julkaistava 4.0 on kyllä syytä vihdoin julkaista myös Maven Centraliin.
>
> > Tämän jälkeen tuli muitakin haasteita. Nähtävästi Sukija käyttää
> erilaisia
> > frameworkkeja joita ei nyt ihan heti osannut oikein konfiguroida. Tästä
> > johtuen oli FinnishTokenizerImpl.java ja schema paketti hukassa. Jos
> > Sukijasta saisi esim. sukija-core palikan Mavenista jossa olisi nämä
> > suggestit niin olisihan se vähän helpompi.
>
> Kuulostaa ihan järkevältä. Hannu kehittää tuota Sukijaa, hän osaa auttaa
> tässä
> paremmin.
>
> > Sukijan koodeja kun sitten hieman lueskelin niin siellä oli monenlaista
> > Suggest luokkaa. StringDistance näytti olevan sinnepäin mitä hain, joten
> > katselin osaisinko itse vääntää vastaavan. Se näyttää käyttävän Lucenen
> eri
> > Distance luokkia ja vertailevan väärinkirjoitettuja johonkin settiin
> > potentiaalisia sanoja käyttäen näitä algoritmeja. Onko Voikon sanalista
> > jotenkin erikseen ladattavissa muistiin jos tällaista haluaa tehdä, tai
> > voiko näitä mahdollisia väärinkirjoituksia muuten hakea?
>
> Voikon sanalistaa ei voi ladata muistiin listan muodossa, koska se olisi
> liian
> suuri. Mutta Voikko-objektin spell-metodilla voit tarkistaa, onko jokin
> sana
> tuolla "listalla" vai ei. Tässäkin asiassa Hannu tietää paremmin, mitä
> tuolla
> Sukijan koodissa tapahtuu.
>
> Harri
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.puimula.org/pipermail/voikko/attachments/20151202/a265b1b4/attachment.html>


More information about the voikko mailing list