[voikko] www-sivujen tarkistus Webvoikolla
Jukka K. Korpela
jkorpela at cs.tut.fi
Mon Mar 7 07:38:15 EET 2011
Flammie Pirinen wrote:
> - yliopistolaitokseni sivun <http://www.ling.helsinki.fi> http-
> otsakkeiden content-typessä ei ole charsettiä ja sisältö on UTF-8:aa.
> HTML-sisällössä on kyllä tyypillinen meta-otsake jossa annetaan tuo
> UTF-8; en muista varmaksi mitä standardit tarkalleen sanovat tästä
> tilanteesta, mutta luulisin sen olevan vieläkin sen verran yleinen
> että kannattanee yrittää tulkita.
On kyllä varsin tavallinen tilanne, ja useinkin on niin, että sivuntekijä ei
voi korjata asiaa, koska hän ei voi vaikuttaa HTTP-otsakkeisiin (koska
Apache-palvelimen ylläpito on disabloinut .htaccess-tiedostojen
vaikutuksen).
Mutta tähän on ilmeisesti jo tullut korjaus, koska nyt tuosta sivusta tulee
analyysi. Onpas nopeaa... Lisätoivomuksia:
a) tunnistetaan myös HTML5:n mukainen <meta charset="...">
b) jos koodaustietoa ei löydy, käytetään oletuksena windows-1252:ta (koska
tämä varmaankin on oikea arvaus yli 99,9 %:ssa tapauksia, kun kyse on
suomenkielisestä tekstistä).
> - kotikoneeni testailupalvelimen etusivulta <http://
> flammie.dyndns.org> kokeilin sanojen morfologisia analyysejä. Tätä
> osaa ei ehkä ole viilailtu loppuun asti, mutta esimerkiksi
> sanamuodolle 'kovalevyineen' tulee kaksi identtisen näköistä tulkintaa
> (ehkäpä yksikön ja monikon possessiiveista, mutta sitä ei kerrota).
Sikäli kuin osaan tulkita, tulkinnat sanovat molemmat, että kyse on
monikosta, mutta ehkäpä jossain taustalla on se, että komitatiivimuodot
tavallaan ovat sekä yksikön että monikon muotoja.
Ja sitten ihan muunlainen ongelma: Jos annettu URL on virheellinen niin,
että palvelin vastaa 404-koodilla, Webvoikko näköjään yrittää oikolukea
virheilmoituksen (mikä toisin usein epäonnistuu sen merkkausvirheiden
takia). Pitäisi varmaankin kertoa virheestä tyyliin "Virhe sivun
hakemisessa, virhekoodi: ...".
Ja vielä pari toivomusta:
1) Analyysin tulosten luettavuus kärsii tasalevyisestä fontista. Ellei sen
käytölle ole erityistä syytä, olisi parempi, että fonttia ei aseteta
lainkaan (= käytetään selaimen oletusfonttia).
2) Jos elementissä on lang-määrite, jonka arvo alkaa jotenkin muuten kuin
"fi", elementin sisältö olisi parempi ohittaa, koska se ei ole suomea. Tämä
ei tietenkään ole ihan tieteellistä, koska periaatteessa pitäisi tehdä
kielikoodin jäsennys osiin jne., mutta tuo olisi kai tarpeeksi hyvä. Riskinä
on, että jos sivu on tehty ohjelmalla, joka omia aikojaan on lisännyt esim.
lang="en", sisältö jää oikolukematta, vaikka se oikeasti olisi suomea. Etuna
se, että olisi vieraskielisiä lainauksia yms. sisältävän sivun analyysi
olisi siistimpi, jos sivulla käytetään lang-määritteitä (joita hiukan
tragikoomisesti ei kylläkään käytetä esimerkiksi yleisen kielitieteen
sivuilla...).
--
Yucca, http://www.cs.tut.fi/~jkorpela/
More information about the voikko
mailing list