[voikko] www-sivujen tarkistus Webvoikolla
Harri Pitkänen
hatapitk at iki.fi
Mon Mar 7 07:26:28 EET 2011
On Sunday 06 March 2011, Flammie Pirinen wrote:
> - yliopistolaitokseni sivun <http://www.ling.helsinki.fi> http-
> otsakkeiden content-typessä ei ole charsettiä ja sisältö on UTF-8:aa.
> HTML-sisällössä on kyllä tyypillinen meta-otsake jossa annetaan tuo
> UTF-8; en muista varmaksi mitä standardit tarkalleen sanovat tästä
> tilanteesta, mutta luulisin sen olevan vieläkin sen verran yleinen
> että kannattanee yrittää tulkita.
Tämä onkin mielenkiintoinen ongelma. Webvoikko nimittäin löytää myös meta-
elementissä annetun koodauksen. Mutta jostain syystä tuo kyseinen palvelin
lisää sivun alkuun tällaisen html-pätkän, jossa on väärä merkistö:
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<title>Yleisen kielitieteen laitos</title>
</head>
<body><p></p>
</body>
</html>
Mielenkiintoiseksi asian tekee se, että tuo pätkä lisätään vain Webvoikon
tekemiin pyyntöihin. Edes Wgetillä sivua hakiessani en saa samaa. Täytyy
jatkaa selvittelyä, mitä erilaista näissä pyynnöissä on. User agentista se ei
ole kiinni.
> - kotikoneeni testailupalvelimen etusivulta <http://
> flammie.dyndns.org> kokeilin sanojen morfologisia analyysejä. Tätä
> osaa ei ehkä ole viilailtu loppuun asti, mutta esimerkiksi
> sanamuodolle 'kovalevyineen' tulee kaksi identtisen näköistä tulkintaa
> (ehkäpä yksikön ja monikon possessiiveista, mutta sitä ei kerrota).
Tämä tulee siitä, että sana "kova" on Joukahaisessa merkitty substantiivi-
adjektiiviksi. Ilmeisesti Suomi-malagan puolella on joku bugi, joka tuottaa
tässä tilanteessa kaksi analyysiä. Näin ei kyllä pitäisi käydä. Katson, jos
asian voisi jotenkin korjata.
Harri
More information about the voikko
mailing list