[voikko] www-sivujen tarkistus Webvoikolla

Harri Pitkänen hatapitk at iki.fi
Mon Mar 7 07:26:28 EET 2011


On Sunday 06 March 2011, Flammie Pirinen wrote:
> - yliopistolaitokseni sivun <http://www.ling.helsinki.fi> http-
> otsakkeiden content-typessä ei ole charsettiä ja sisältö on UTF-8:aa.
> HTML-sisällössä on kyllä tyypillinen meta-otsake jossa annetaan tuo
> UTF-8; en muista varmaksi mitä standardit tarkalleen sanovat tästä
> tilanteesta, mutta luulisin sen olevan vieläkin sen verran yleinen
> että kannattanee yrittää tulkita.

Tämä onkin mielenkiintoinen ongelma. Webvoikko nimittäin löytää myös meta-
elementissä annetun koodauksen. Mutta jostain syystä tuo kyseinen palvelin 
lisää sivun alkuun tällaisen html-pätkän, jossa on väärä merkistö:

<html>
   <head>
      <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> 
      <title>Yleisen kielitieteen laitos</title>
   </head>
   <body><p></p>
   </body>
</html>

Mielenkiintoiseksi asian tekee se, että tuo pätkä lisätään vain Webvoikon 
tekemiin pyyntöihin. Edes Wgetillä sivua hakiessani en saa samaa. Täytyy 
jatkaa selvittelyä, mitä erilaista näissä pyynnöissä on. User agentista se ei 
ole kiinni.

> - kotikoneeni testailupalvelimen etusivulta <http://
> flammie.dyndns.org> kokeilin sanojen morfologisia analyysejä. Tätä
> osaa ei ehkä ole viilailtu loppuun asti, mutta esimerkiksi
> sanamuodolle 'kovalevyineen' tulee kaksi identtisen näköistä tulkintaa
> (ehkäpä yksikön ja monikon possessiiveista, mutta sitä ei kerrota).

Tämä tulee siitä, että sana "kova" on Joukahaisessa merkitty substantiivi-
adjektiiviksi. Ilmeisesti Suomi-malagan puolella on joku bugi, joka tuottaa 
tässä tilanteessa kaksi analyysiä. Näin ei kyllä pitäisi käydä. Katson, jos 
asian voisi jotenkin korjata.

Harri



More information about the voikko mailing list