<p dir="ltr">Juu kiitos Harri hyvistä vastauksista. Pitää kokeilla noita Voikon spell ja suggest metodeita. </p>
<p dir="ltr">Tuo omati.. onkin typo, meni tuo välistä puuttuva pätkä ohi kun pitkää listaa hylätyistä rullasin läpi.</p>
<p dir="ltr">Laitoin ilmeisesti reply enkä replyall tms kun ei mennyt listalle. Meneehän se näinkin</p>
<div class="gmail_quote">On 2 Dec 2015 7:12 p.m., "Harri Pitkänen" <<a href="mailto:hatapitk@iki.fi">hatapitk@iki.fi</a>> wrote:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hei!<br>
<br>
(Jostain syystä tämä viesti tuli vain minulle eikä postituslistalle. Vastaan<br>
nyt vain sinulle, mutta jos olit tarkoittanut viestin listalle, voit vapaasti<br>
forwardoida myös vastaukseni sinne.)<br>
<br>
On Wednesday 02 December 2015 16:43:00 you wrote:<br>
> Onko sivustolla oleva sanasto nyt päivitetty? Sanastosivulla näytti<br>
> lukevan että olisi päivitetty Sunnuntaina iltapäivästä. En tiedä<br>
> tarkoittiko sanastoa vai jotain muuta.<br>
<br>
Kyllä, ne on päivitetty, tuo merkintä tarkoittaa juuri sitä.<br>
<br>
> Esim. alla olevia sanoja ei Voikko<br>
> sillä tunnistanut:<br>
><br>
> käyttöönottaminen<br>
> tiedoksisaannista<br>
> tiedoksisaanti<br>
> omatitalotontiksi<br>
> milj<br>
> tammi-kesäkuun<br>
> huhti-kesäkuun<br>
> huhti-kesäkuulta<br>
><br>
> Erinäisiä yhdyssanoja myös, kuten<br>
><br>
> ict-toimintojen<br>
> kaupunki-nimityksen<br>
> suuntaa-antava<br>
> fennovoima-investointiin<br>
> energia-konsernin<br>
><br>
> Yleisesti kuitenkin näyttää toimivan oikein hyvin.<br>
<br>
Näitä sanoja en vielä lisännyt sanastoon, koska ne ovat teknisesti hankalampia<br>
tapauksia. Osa niistä voidaan lisätä tuleviin versioihin. Ainakin "milj"<br>
(pitäisi olla "milj."), "omatitalotontiksi" (pitäisi olla<br>
"omakotitalotontiksi") ja "energia-konsernin" (kontekstista riippuen ehkä<br>
"energiakonsernin" tai "XXX energia -konsernin") ovat mielestäni väärin.<br>
<br>
> Tuon oikeinkirjoituksen osalta kaipaisin vähän erilaista lähestymistapaa.<br>
> Minua kiinnostaisi erikseen löytää ne potentiaalisesti väärinkirjoitetut<br>
> sanat, eli itse tietää mitkä ovat niitä väärinkirjoitettuja ja ehdotettu<br>
> korjaus. Jos Voikko automaattisesti niitä arpoo niin en tiedä milloin se<br>
> teki niin.<br>
<br>
Tämä kuulostaa oikoluvulta. Voikko-objektin spell-metodilla voit tarkistaa,<br>
onko sana oikein ja suggest-metodilla etsiä vääräksi tulkitulle sanalle<br>
mahdollisia korjausehdotuksia.<br>
<br>
> Tähän liittyen Hannu ehdottikin Sukijan käyttöä ja sen Suggest luokkaa.<br>
> Katselin tuossa hieman Sukijaa ja se näyttää olevan webbiapplikaatio Solr:n<br>
> päälle rakennettuna. Minua kiinnostaisi erillään siitä tuo Suggest<br>
> tyyppinen ehdottelu. Eli otin gitistä kloonin ja katselin miten saisin<br>
> palat sieltä ulos.<br>
<br>
Sukijan Suggest-luokat taitavat tehdä osittain samaa kuin Voikon suggest-<br>
metodi, mutta menevät pidemmälle etsiessään näitä ehdotuksia. Ilmeisesti ne<br>
voivat ehdottaa korjaukseksi myös sanoja, joita Voikko ei hyväksyisi oikein<br>
kirjoitetuksi.<br>
<br>
> Huomasin sitten että siinä oli erinäistä ongelmaa<br>
> kääntää koodia. Eli<br>
><br>
> libvoikko oli riippuvuutena versio 3.7, se piti vaihtaa 3.6.1 että Maven<br>
> löysi sen. Onko tämä joku itse käännetty uusi version 3.7?<br>
<br>
On luultavasti. En ole julkaissut useimpia versioita Maven Centraliin siksi,<br>
että yleensä tuo Java-komponentti ei muutu versioiden välillä lainkaan, tai<br>
muutokset ovat epäoleellisia, eikä päivittämiselle siksi ole ollut tarvetta.<br>
Nyt julkaistava 4.0 on kyllä syytä vihdoin julkaista myös Maven Centraliin.<br>
<br>
> Tämän jälkeen tuli muitakin haasteita. Nähtävästi Sukija käyttää erilaisia<br>
> frameworkkeja joita ei nyt ihan heti osannut oikein konfiguroida. Tästä<br>
> johtuen oli FinnishTokenizerImpl.java ja schema paketti hukassa. Jos<br>
> Sukijasta saisi esim. sukija-core palikan Mavenista jossa olisi nämä<br>
> suggestit niin olisihan se vähän helpompi.<br>
<br>
Kuulostaa ihan järkevältä. Hannu kehittää tuota Sukijaa, hän osaa auttaa tässä<br>
paremmin.<br>
<br>
> Sukijan koodeja kun sitten hieman lueskelin niin siellä oli monenlaista<br>
> Suggest luokkaa. StringDistance näytti olevan sinnepäin mitä hain, joten<br>
> katselin osaisinko itse vääntää vastaavan. Se näyttää käyttävän Lucenen eri<br>
> Distance luokkia ja vertailevan väärinkirjoitettuja johonkin settiin<br>
> potentiaalisia sanoja käyttäen näitä algoritmeja. Onko Voikon sanalista<br>
> jotenkin erikseen ladattavissa muistiin jos tällaista haluaa tehdä, tai<br>
> voiko näitä mahdollisia väärinkirjoituksia muuten hakea?<br>
<br>
Voikon sanalistaa ei voi ladata muistiin listan muodossa, koska se olisi liian<br>
suuri. Mutta Voikko-objektin spell-metodilla voit tarkistaa, onko jokin sana<br>
tuolla "listalla" vai ei. Tässäkin asiassa Hannu tietää paremmin, mitä tuolla<br>
Sukijan koodissa tapahtuu.<br>
<br>
Harri<br>
</blockquote></div>