[voikko] www-sivujen tarkistus Webvoikolla

Jukka K. Korpela jkorpela at cs.tut.fi
Sat Mar 5 20:33:32 EET 2011


Harri Pitkänen wrote:

> Webvoikossa on jo muutaman päivän ajan ollut mukana kokeellinen
> www-sivujen oikolukutoiminto:

Hienoa kehitystää.

> Edelleen kuitenkin edellytetään, että mm. p-, div-, h1-, li-, table-
> ja td-elementtien muodostaman rakenteen on oltava täysin oikein, eikä
> lopetustagien puuttumista sallita. Tämä vaatimus on siksi, että
> tekstille tehdään oikoluvun lisäksi myös kieliopin tarkistus, ja
> siinä on oleellista tietää, missä kappaleiden rajat kulkevat, ja
> missä mahdollisesti on otsikoita tai luetelmia.

P-, li- ja td-elementtien lopputägit ovat vapaaehtoisia kaikissa muissa 
HTML:n muodoissa paitsi XHTML:ssä, joten vaatimus on aika kova. On erittäin 
tavallista jättää kyseiset lopputägit pois, eikä siitä seuraa 
periaatteellista eikä käytännöllistä monitulkintaisuutta.

> - Edelliseen liittyen palvelu ei tarkista suoraan div-elementin
> sisällä olevaa tekstiä. Eli ainoastaan p-elementtien sisällä oleva
> teksti tulkitaan tekstikappaleeksi.

Tuo on tavallaan ymmärrettävää - ja on aika hyvä perustelu sille, miksi 
kappaleet pitäisi merkata p-elementeiksi - mutta aiheuttaa käytännön 
ongelmia. Mikään HTML:n määrittely ei varsinaisesti vaadi kappaleiden 
merkkaamista p-elementeiksi.

> - Bugeja varmasti vielä on, niitä löytyy joka päivä.

Bugin luonteinen asia on se, että SOFT HYPHEN sanassa aiheuttaa sen, että 
Webvoikko ei lainkaan tunnista sanaa. SOFT HYPHEN on "aina" ollut sallittu 
HTML:ssä, mutta sen käyttö lienee alkanut yleistyä vasta viime aikoina, kun 
kaikki merkittävät selaimet ovat ruvenneet tukemaan sitä.

Yksinkertaisinta olisi ignoroida SOFT HYPHEN kaikissa tilanteissa. 
Periaatteessa sitä voisi käyttää hyväksikin, mutta menisi aika vaikeaksi.

-- 
Yucca, http://www.cs.tut.fi/~jkorpela/ 




More information about the voikko mailing list