[voikko] www-sivujen tarkistus Webvoikolla
Harri Pitkänen
hatapitk at iki.fi
Mon Mar 7 08:28:49 EET 2011
On Monday 07 March 2011, Jukka K. Korpela wrote:
> analyysi. Onpas nopeaa... Lisätoivomuksia:
> a) tunnistetaan myös HTML5:n mukainen <meta charset="...">
Lisään tämän vaikka myöhemmin tällä viikolla.
> b) jos koodaustietoa ei löydy, käytetään oletuksena windows-1252:ta (koska
> tämä varmaankin on oikea arvaus yli 99,9 %:ssa tapauksia, kun kyse on
> suomenkielisestä tekstistä).
Tarkoitus on laajentaa palvelua (tai ainakin periaatteessa mahdollistaa
laajentaminen) muillekin kielille kuin suomelle. Näistä ensimmäisten joukossa
tuetuksi voisi tulla pohjoissaame, jolle tuo merkistö ei taida riittää. Joten
palvelun oletusmerkistö saa olla vielä UTF-8. Mutta jos palvelusta tehdään
kunnolla monikielinen, niin joku kielivalinta tai ainakin kielen
automaattitunnistus siihen on lisättävä, ja tässä yhteydessä voisi
oletusmerkistön valinnankin tehdä suomen osalta tällä tavalla.
> > - kotikoneeni testailupalvelimen etusivulta <http://
> > flammie.dyndns.org> kokeilin sanojen morfologisia analyysejä. Tätä
> > osaa ei ehkä ole viilailtu loppuun asti, mutta esimerkiksi
> > sanamuodolle 'kovalevyineen' tulee kaksi identtisen näköistä tulkintaa
> > (ehkäpä yksikön ja monikon possessiiveista, mutta sitä ei kerrota).
>
> Sikäli kuin osaan tulkita, tulkinnat sanovat molemmat, että kyse on
> monikosta, mutta ehkäpä jossain taustalla on se, että komitatiivimuodot
> tavallaan ovat sekä yksikön että monikon muotoja.
Tässä ei ollut tarkoitus erotella yksikköä ja monikkoa, kyse oli tosiaan vain
bugista. Se on nyt korjattu SVN:ssä. Korjaus tulee Webvoikon perussanastoon
ensi yönä automaattipäivityksen yhteydessä ja lääketieteelliseen sanastoon
joskus myöhemmin.
> Ja vielä pari toivomusta:
>
> 1) Analyysin tulosten luettavuus kärsii tasalevyisestä fontista. Ellei sen
> käytölle ole erityistä syytä, olisi parempi, että fonttia ei aseteta
> lainkaan (= käytetään selaimen oletusfonttia).
Tasalevyiseen fonttiin ei ole muuta erityistä syytä kuin se, että sellaista
palvelun "Kirjoita teksti"-puolella on käytetty aikojen alusta lähtien, ja
tällä www-puolella tulokset tulostetaan samalla koodilla. Tulosten ulkoasua on
kyllä tarkoitus muuttaa järkevämmäksi.
> 2) Jos elementissä on lang-määrite, jonka arvo alkaa jotenkin muuten kuin
> "fi", elementin sisältö olisi parempi ohittaa, koska se ei ole suomea. Tämä
> ei tietenkään ole ihan tieteellistä, koska periaatteessa pitäisi tehdä
> kielikoodin jäsennys osiin jne., mutta tuo olisi kai tarpeeksi hyvä.
> Riskinä on, että jos sivu on tehty ohjelmalla, joka omia aikojaan on
> lisännyt esim. lang="en", sisältö jää oikolukematta, vaikka se oikeasti
> olisi suomea. Etuna se, että olisi vieraskielisiä lainauksia yms.
> sisältävän sivun analyysi olisi siistimpi, jos sivulla käytetään
> lang-määritteitä (joita hiukan tragikoomisesti ei kylläkään käytetä
> esimerkiksi yleisen kielitieteen sivuilla...).
Joo, tämä kielimääritteiden huomiointi lisätään myös lähitulevaisuudessa.
Harri
More information about the voikko
mailing list