Karakterkódolás ellenőrzése a validatorral

W3C Markup Validation Service

Internationalization Checker

Intended audience: users, XHTML/HTML coders (using editors or scripting), script developers (PHP, JSP, etc.), Web project managers, and anyone who needs to know how to check the character encoding of a document.

Question

Hogy ellenőrizhetem a megfelelő karakterkódolását a dokumentumomnak a W3C HTML Validator használatával?

Answer

Hogy biztosra menjünk abban, hogy egy dokumentumot mindenki megfelelően lát, fontos, hogy a karakterkódolás korrekt legyen. Ennek ellenőrzésére az egyik mód a W3C Markup Validator Szolgáltatás használata. A validator általában észleli a karakterkódolást a HTTP fejlécekből és a dokumentumban található információkból. Ha a validator nem tudja észlelni, kiválasztható a kódolás az 'Encoding' menüből (példa).

De gyakra a validator akkor sem jelez, ha rossz kódolás lett észlelve vagy detektálva. Ennek oka, hogy sok kódolás nagyon hasonló és a validator csak a leíró nyelvet ellenőrzi, azt viszont, hogy a szövegnek van értelme vagy sem, már nem. Hogy ennek helyességéről meggyőződjünk, a következő pontok segítenek:

By the way

A validator nem működik a karakterkódolás információ nélkül, mert az SGML vagy XML ellenőrzése a karakterek sorozatainak elemzésén alapul, de amit a validator bemenetként kap az csak bájtok sorozata. A karakterkódolás ismeretében viszont a validator a bájtokat karakterekké konvertálja. általában ez jellemző az összes ilyen adatokkal dolgozó alkalmazásokra, beleértve a böngészőket is. Ha a megfelelő karaktereket nem sikerül azonosítani a böngészőben megjelenő oldal zavaros és értelmetlen lesz.

A validator az ellenőrzést úgy viszi véghez, hogy a jelzett kódolásból UTF-8-ba konvertálja a szöveget. Ha a konverzió nem sikerül, mert egy bizonyos bájtrész nem jelenik meg a bemeneti kódolásban, a validator hibaüzenet dob vissza.

Jegyezzük meg, hogy egy oldal vizuális ellenőrzése a validator nélkül nem mindig a legjobb, mert: