[voikko] www-sivujen tarkistus Webvoikolla

Jukka K. Korpela jkorpela at cs.tut.fi
Mon Mar 7 07:38:15 EET 2011


Flammie Pirinen wrote:

> - yliopistolaitokseni sivun <http://www.ling.helsinki.fi> http-
> otsakkeiden content-typessä ei ole charsettiä ja sisältö on UTF-8:aa.
> HTML-sisällössä on kyllä tyypillinen meta-otsake jossa annetaan tuo
> UTF-8; en muista varmaksi mitä standardit tarkalleen sanovat tästä
> tilanteesta, mutta luulisin sen olevan vieläkin sen verran yleinen
> että kannattanee yrittää tulkita.

On kyllä varsin tavallinen tilanne, ja useinkin on niin, että sivuntekijä ei 
voi korjata asiaa, koska hän ei voi vaikuttaa HTTP-otsakkeisiin (koska 
Apache-palvelimen ylläpito on disabloinut .htaccess-tiedostojen 
vaikutuksen).

Mutta tähän on ilmeisesti jo tullut korjaus, koska nyt tuosta sivusta tulee 
analyysi. Onpas nopeaa... Lisätoivomuksia:
a) tunnistetaan myös HTML5:n mukainen <meta charset="...">
b) jos koodaustietoa ei löydy, käytetään oletuksena windows-1252:ta (koska 
tämä varmaankin on oikea arvaus yli 99,9 %:ssa tapauksia, kun kyse on 
suomenkielisestä tekstistä).

> - kotikoneeni testailupalvelimen etusivulta <http://
> flammie.dyndns.org> kokeilin sanojen morfologisia analyysejä. Tätä
> osaa ei ehkä ole viilailtu loppuun asti, mutta esimerkiksi
> sanamuodolle 'kovalevyineen' tulee kaksi identtisen näköistä tulkintaa
> (ehkäpä yksikön ja monikon possessiiveista, mutta sitä ei kerrota).

Sikäli kuin osaan tulkita, tulkinnat sanovat molemmat, että kyse on 
monikosta, mutta ehkäpä jossain taustalla on se, että komitatiivimuodot 
tavallaan ovat sekä yksikön että monikon muotoja.

Ja sitten ihan muunlainen ongelma: Jos annettu URL on virheellinen niin, 
että palvelin vastaa 404-koodilla, Webvoikko näköjään yrittää oikolukea 
virheilmoituksen (mikä toisin usein epäonnistuu sen merkkausvirheiden 
takia). Pitäisi varmaankin kertoa virheestä tyyliin "Virhe sivun 
hakemisessa, virhekoodi: ...".

Ja vielä pari toivomusta:

1) Analyysin tulosten luettavuus kärsii tasalevyisestä fontista. Ellei sen 
käytölle ole erityistä syytä, olisi parempi, että fonttia ei aseteta 
lainkaan (= käytetään selaimen oletusfonttia).

2) Jos elementissä on lang-määrite, jonka arvo alkaa jotenkin muuten kuin 
"fi", elementin sisältö olisi parempi ohittaa, koska se ei ole suomea. Tämä 
ei tietenkään ole ihan tieteellistä, koska periaatteessa pitäisi tehdä 
kielikoodin jäsennys osiin jne., mutta tuo olisi kai tarpeeksi hyvä. Riskinä 
on, että jos sivu on tehty ohjelmalla, joka omia aikojaan on lisännyt esim. 
lang="en", sisältö jää oikolukematta, vaikka se oikeasti olisi suomea. Etuna 
se, että olisi vieraskielisiä lainauksia yms. sisältävän sivun analyysi 
olisi siistimpi, jos sivulla käytetään lang-määritteitä (joita hiukan 
tragikoomisesti ei kylläkään käytetä esimerkiksi yleisen kielitieteen 
sivuilla...).

-- 
Yucca, http://www.cs.tut.fi/~jkorpela/ 




More information about the voikko mailing list