[voikko] www-sivujen tarkistus Webvoikolla

Harri Pitkänen hatapitk at iki.fi
Mon Mar 7 08:28:49 EET 2011


On Monday 07 March 2011, Jukka K. Korpela wrote:
> analyysi. Onpas nopeaa... Lisätoivomuksia:
> a) tunnistetaan myös HTML5:n mukainen <meta charset="...">

Lisään tämän vaikka myöhemmin tällä viikolla.

> b) jos koodaustietoa ei löydy, käytetään oletuksena windows-1252:ta (koska
> tämä varmaankin on oikea arvaus yli 99,9 %:ssa tapauksia, kun kyse on
> suomenkielisestä tekstistä).

Tarkoitus on laajentaa palvelua (tai ainakin periaatteessa mahdollistaa 
laajentaminen) muillekin kielille kuin suomelle. Näistä ensimmäisten joukossa 
tuetuksi voisi tulla pohjoissaame, jolle tuo merkistö ei taida riittää. Joten 
palvelun oletusmerkistö saa olla vielä UTF-8. Mutta jos palvelusta tehdään 
kunnolla monikielinen, niin joku kielivalinta tai ainakin kielen 
automaattitunnistus siihen on lisättävä, ja tässä yhteydessä voisi 
oletusmerkistön valinnankin tehdä suomen osalta tällä tavalla.

> > - kotikoneeni testailupalvelimen etusivulta <http://
> > flammie.dyndns.org> kokeilin sanojen morfologisia analyysejä. Tätä
> > osaa ei ehkä ole viilailtu loppuun asti, mutta esimerkiksi
> > sanamuodolle 'kovalevyineen' tulee kaksi identtisen näköistä tulkintaa
> > (ehkäpä yksikön ja monikon possessiiveista, mutta sitä ei kerrota).
> 
> Sikäli kuin osaan tulkita, tulkinnat sanovat molemmat, että kyse on
> monikosta, mutta ehkäpä jossain taustalla on se, että komitatiivimuodot
> tavallaan ovat sekä yksikön että monikon muotoja.

Tässä ei ollut tarkoitus erotella yksikköä ja monikkoa, kyse oli tosiaan vain 
bugista. Se on nyt korjattu SVN:ssä. Korjaus tulee Webvoikon perussanastoon 
ensi yönä automaattipäivityksen yhteydessä ja lääketieteelliseen sanastoon 
joskus myöhemmin.

> Ja vielä pari toivomusta:
> 
> 1) Analyysin tulosten luettavuus kärsii tasalevyisestä fontista. Ellei sen
> käytölle ole erityistä syytä, olisi parempi, että fonttia ei aseteta
> lainkaan (= käytetään selaimen oletusfonttia).

Tasalevyiseen fonttiin ei ole muuta erityistä syytä kuin se, että sellaista 
palvelun "Kirjoita teksti"-puolella on käytetty aikojen alusta lähtien, ja 
tällä www-puolella tulokset tulostetaan samalla koodilla. Tulosten ulkoasua on 
kyllä tarkoitus muuttaa järkevämmäksi.

> 2) Jos elementissä on lang-määrite, jonka arvo alkaa jotenkin muuten kuin
> "fi", elementin sisältö olisi parempi ohittaa, koska se ei ole suomea. Tämä
> ei tietenkään ole ihan tieteellistä, koska periaatteessa pitäisi tehdä
> kielikoodin jäsennys osiin jne., mutta tuo olisi kai tarpeeksi hyvä.
> Riskinä on, että jos sivu on tehty ohjelmalla, joka omia aikojaan on
> lisännyt esim. lang="en", sisältö jää oikolukematta, vaikka se oikeasti
> olisi suomea. Etuna se, että olisi vieraskielisiä lainauksia yms.
> sisältävän sivun analyysi olisi siistimpi, jos sivulla käytetään
> lang-määritteitä (joita hiukan tragikoomisesti ei kylläkään käytetä
> esimerkiksi yleisen kielitieteen sivuilla...).

Joo, tämä kielimääritteiden huomiointi lisätään myös lähitulevaisuudessa.

Harri



More information about the voikko mailing list