Manipularea codării de caracter în HTML și CSS

Cititorii vizati: Autorii de conținut HTML/XHTML și CSS. Acest material este aplicabil chiar dacă creați într-un editor sau prin scripting.

Acest editor adună impreună și organizează direcții către articole care, luate împreună, ne ajută să ințelegem cum să manevram aspectele esentiale ale autorizarii (X)HTML și CSS în legatura cu caracterele și codările caracterelor.

Pe scurt

Această secțiune este pentru oamenii care nu au timp și care doresc doar să gasească niște recomandări cheie din tutorial. Daca nu ințelegeți ceva, sau dacă doriți informații mai detaliate,citiți restul tutorialului.

Salvați paginile ca UTF-8, de câte ori puteți.

Declarați de fiecare dată codarea unui document. Folosiți antetul HTTP dacă puteți. Folosiți de asemenea mereu declarația din document. Acest tabel vă spune cum, în funcție de formatul pe care îl autorizați. Folosiți nume de codare din registrul IANA.

Folosiți regula @charset pentru foi de stil externe(dar nu CSS în pagina HTML) dacă aveți conținut non-ASCII, cum ar fi nume de fonturi, id-uri sau nume de clase, etc.

Incercați să evitați folosirea semnului byte-order în UTF-8, și asigurați-vă că codul vostru HTML este salvat în formularul de normalizare C Unicode (NFC).

Evitați folosirea surogatelor, cu excepția caracterelor invizibile și ambigue. Și nu folosiți caractere de control Unicode cand puteți folosi marcare.

Articolele subliniază desrierea gândirii cât mai avansate cu respect pentru specificațiile HTML5. Este important de subliniat, totuși, că specificațiile HTML5 nu sunt înca stabile, asa că ar trebui să abordați aceste informații cu grijă.

Informații esențiale de fundal

Dacă sunteți nou în acest domeniu, sunt câteva concepte fundamentale pe care trebuie sa le întelegeți dacă doriți să urmariți diverse părti ale acestui tutorial. Dacă sunteți familiarizat cu aceste concepte, puteți să săriți la următoarea secțiune.

Alegerea și aplicarea codării de caractere

Conținutul este compus dintr-o secventă de caractere. Caracterele reprezintă litere din alfabet, punctuație, etc. Dar conținutul este stocat într-un computer ca o secventă de bytes, care sunt valori numerice. Uneori mai mult de un byte este folosit pentru a reprezenta un singur caracter. Ca și codurile folosite în spionaj, felul în care secventa de bytes este convertită în caractere depinde de ce cheie a fost folosită pentru a coda textul. În acest context, cheia este denumită o codare de caracter.

Sunt mai multe tipuri de codare de caracter din care putem alege. Această parte din tutorial oferă sfaturi simple legate de ce codare de caracter să folosim pentru conținutul nostru și cum să o aplicăm.

Alegerea și aplicarea unei codări de caracter include următoarele:

Cum să declarăm codarea de caracter

Ar trebui să specificați de fiecare dată codarea folosită pentru o pagină HTML sau XML. Daca nu o faceți, riscați ca caracterele din conținut să fie interpretate greșit. Aceasta nu este doar o chestiune de citire pentru oameni, ci și calculatorul trebuie să ințeleagă aceste date. Ar trebui să verificați de asemenea să nu folosiți codări diferite in locuri diferite.

Declararea codărilor de caractere în HTML vă va oferii un set de recomandări rapide pentru cei care vor doar să afle ce au de făcut, și informații mai detaliate pentru cei care au nevoie de ele.

Declararea codării de caractere în CSS oferș informații pentru CSS.

  1. Recomandări rapide
  2. Mai multe detalii:

 

Semnul byte-order (BOM)

Semnul byte-order, sau BOM, este ceva peste care veți da atunci când folosiți o codare de caracter bazată pe Unicode, cum ar fi UTF-8 și UTF-16. În unele cazuri veți fi nevoiți să stergeți BOM-ul, pentru a vă asigura că e acolo.

Semnul byte-order (BOM) în HTML acoperă:

Formularele de normalizare Unicode

Normalizarea este ceva ce trebuie să conștientizați dacă autorizați pagini HTML cu foi de stil CSS în UTF-8 (sau orice alta codare Unicode), în special dacș le folosiți cu text într-un script care folosește accente sau alte diacritice.

Normalizarea în HTML și CSS acoperă:

Folosirea surogatelor de caractere

Puteți folosi un surogat de caracter pentru a reprezenta orice caracter din setul de caractere în HTML, XML sau CSS folosind numai caractere ASCII.

Folosirea surogatelor de caracter în marcare și CSS oferă informații despre următoarele:

Caractere sau marcaje?

În sfarșit, sunt o serie de caractere Unicode tip control, unele din ele indeplinesc același rol ca marcaj. Întrebarea este, pe care îl folosim, și pe care îl evitam?

Caractere sau marcaj? acoperă: