<div dir="ltr">Tulipa tuota suggestia kokeiltua. Interaktiiviseen sovellukseen varmasti mainio apu. Tässä kun minun pitäisi osata automaattisesti valita oikein (ainakin korkealla todennäköisyydellä) niin ei taida oikein onnistua. Esimerkiksi tuo "milj" antaa "Milja". "väätäjän" antaa yhtenä "jäätävän". Kaikki numeroja sisältävät heittää aika erikoisia ehdotuksia. Lyhyistä tulee jänniä myös, esim. "jne" ehdottaa "ne" ja "Jane". Ja niin edelleen. Hakutulokset olisivat ehkä hieman outoja loppua kohti.<div><br></div><div>Taidan tyytyä itse tekemään yleisimmille hukassa oleville sanoille kustomoidun tulkinnan kun niistä suurin osa on enemmän paikallista termistöä. Eiköhän tuo ala olla OK näillä viritelmillä.</div></div><div class="gmail_extra"><br><div class="gmail_quote">2015-12-02 19:26 GMT+02:00 Teemu Kanstrén <span dir="ltr"><<a href="mailto:tkanstren@gmail.com" target="_blank">tkanstren@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><p dir="ltr">Juu kiitos Harri hyvistä vastauksista. Pitää kokeilla noita Voikon spell ja suggest metodeita. </p>
<p dir="ltr">Tuo omati.. onkin typo, meni tuo välistä puuttuva pätkä ohi kun pitkää listaa hylätyistä rullasin läpi.</p>
<p dir="ltr">Laitoin ilmeisesti reply enkä replyall tms kun ei mennyt listalle. Meneehän se näinkin</p><div class="HOEnZb"><div class="h5">
<div class="gmail_quote">On 2 Dec 2015 7:12 p.m., "Harri Pitkänen" <<a href="mailto:hatapitk@iki.fi" target="_blank">hatapitk@iki.fi</a>> wrote:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hei!<br>
<br>
(Jostain syystä tämä viesti tuli vain minulle eikä postituslistalle. Vastaan<br>
nyt vain sinulle, mutta jos olit tarkoittanut viestin listalle, voit vapaasti<br>
forwardoida myös vastaukseni sinne.)<br>
<br>
On Wednesday 02 December 2015 16:43:00 you wrote:<br>
>  Onko sivustolla oleva sanasto nyt päivitetty? Sanastosivulla näytti<br>
> lukevan että olisi päivitetty Sunnuntaina iltapäivästä. En tiedä<br>
> tarkoittiko sanastoa vai jotain muuta.<br>
<br>
Kyllä, ne on päivitetty, tuo merkintä tarkoittaa juuri sitä.<br>
<br>
> Esim. alla olevia sanoja ei Voikko<br>
> sillä tunnistanut:<br>
><br>
> käyttöönottaminen<br>
> tiedoksisaannista<br>
> tiedoksisaanti<br>
> omatitalotontiksi<br>
> milj<br>
> tammi-kesäkuun<br>
> huhti-kesäkuun<br>
> huhti-kesäkuulta<br>
><br>
> Erinäisiä yhdyssanoja myös, kuten<br>
><br>
> ict-toimintojen<br>
> kaupunki-nimityksen<br>
> suuntaa-antava<br>
> fennovoima-investointiin<br>
> energia-konsernin<br>
><br>
> Yleisesti kuitenkin näyttää toimivan oikein hyvin.<br>
<br>
Näitä sanoja en vielä lisännyt sanastoon, koska ne ovat teknisesti hankalampia<br>
tapauksia. Osa niistä voidaan lisätä tuleviin versioihin. Ainakin "milj"<br>
(pitäisi olla "milj."), "omatitalotontiksi" (pitäisi olla<br>
"omakotitalotontiksi") ja "energia-konsernin" (kontekstista riippuen ehkä<br>
"energiakonsernin" tai "XXX energia -konsernin") ovat mielestäni väärin.<br>
<br>
> Tuon oikeinkirjoituksen osalta kaipaisin vähän erilaista lähestymistapaa.<br>
> Minua kiinnostaisi erikseen löytää ne potentiaalisesti väärinkirjoitetut<br>
> sanat, eli itse tietää mitkä ovat niitä väärinkirjoitettuja ja ehdotettu<br>
> korjaus. Jos Voikko automaattisesti niitä arpoo niin en tiedä milloin se<br>
> teki niin.<br>
<br>
Tämä kuulostaa oikoluvulta. Voikko-objektin spell-metodilla voit tarkistaa,<br>
onko sana oikein ja suggest-metodilla etsiä vääräksi tulkitulle sanalle<br>
mahdollisia korjausehdotuksia.<br>
<br>
> Tähän liittyen Hannu ehdottikin Sukijan käyttöä ja sen Suggest luokkaa.<br>
> Katselin tuossa hieman Sukijaa ja se näyttää olevan webbiapplikaatio Solr:n<br>
> päälle rakennettuna. Minua kiinnostaisi erillään siitä tuo Suggest<br>
> tyyppinen ehdottelu. Eli otin gitistä kloonin ja katselin miten saisin<br>
> palat sieltä ulos.<br>
<br>
Sukijan Suggest-luokat taitavat tehdä osittain samaa kuin Voikon suggest-<br>
metodi, mutta menevät pidemmälle etsiessään näitä ehdotuksia. Ilmeisesti ne<br>
voivat ehdottaa korjaukseksi myös sanoja, joita Voikko ei hyväksyisi oikein<br>
kirjoitetuksi.<br>
<br>
> Huomasin sitten että siinä oli erinäistä ongelmaa<br>
> kääntää koodia. Eli<br>
><br>
> libvoikko oli riippuvuutena versio 3.7, se piti vaihtaa 3.6.1 että Maven<br>
> löysi sen. Onko tämä joku itse käännetty uusi version 3.7?<br>
<br>
On luultavasti. En ole julkaissut useimpia versioita Maven Centraliin siksi,<br>
että yleensä tuo Java-komponentti ei muutu versioiden välillä lainkaan, tai<br>
muutokset ovat epäoleellisia, eikä päivittämiselle siksi ole ollut tarvetta.<br>
Nyt julkaistava 4.0 on kyllä syytä vihdoin julkaista myös Maven Centraliin.<br>
<br>
> Tämän jälkeen tuli muitakin haasteita. Nähtävästi Sukija käyttää erilaisia<br>
> frameworkkeja joita ei nyt ihan heti osannut oikein konfiguroida. Tästä<br>
> johtuen oli FinnishTokenizerImpl.java ja schema paketti hukassa. Jos<br>
> Sukijasta saisi esim. sukija-core palikan Mavenista jossa olisi nämä<br>
> suggestit niin olisihan se vähän helpompi.<br>
<br>
Kuulostaa ihan järkevältä. Hannu kehittää tuota Sukijaa, hän osaa auttaa tässä<br>
paremmin.<br>
<br>
> Sukijan koodeja kun sitten hieman lueskelin niin siellä oli monenlaista<br>
> Suggest luokkaa. StringDistance näytti olevan sinnepäin mitä hain, joten<br>
> katselin osaisinko itse vääntää vastaavan. Se näyttää käyttävän Lucenen eri<br>
> Distance luokkia ja vertailevan väärinkirjoitettuja johonkin settiin<br>
> potentiaalisia sanoja käyttäen näitä algoritmeja. Onko Voikon sanalista<br>
> jotenkin erikseen ladattavissa muistiin jos tällaista haluaa tehdä, tai<br>
> voiko näitä mahdollisia väärinkirjoituksia muuten hakea?<br>
<br>
Voikon sanalistaa ei voi ladata muistiin listan muodossa, koska se olisi liian<br>
suuri. Mutta Voikko-objektin spell-metodilla voit tarkistaa, onko jokin sana<br>
tuolla "listalla" vai ei. Tässäkin asiassa Hannu tietää paremmin, mitä tuolla<br>
Sukijan koodissa tapahtuu.<br>
<br>
Harri<br>
</blockquote></div>
</div></div></blockquote></div><br></div>