Manevrarea codării de caractere în HTML și CSS (tutorial)

De ce ar trebui să citiți asta?

Daca un browser nu este capabil să detecteze codarea caracterelor folosită în pagină, conținutul poate fi imposibil de citit. Informația din acest tutorial este foarte importantă pentru cei care se ocupa de întreținerea și extinderea unui site multilingv, dar declararea codării de caractere a documentului este importantă pentru oricine crează HTML sau CSS care folosește caractere non-ASCII, pentru că, chiar dacă arată bine pentru tine, browserul altor oameni poate afecta felul în care este afișat. Acest tutorial o sa vă ofere întelegerea necesară pe acest topic care o să vă ajute sa luați deciziile potrivite.

Obiective

Dupa ce ai terminat acest tutorial ar trebui să:

ai o idee clară despre factorii care au legatură cu alegerea tipului de codare pentru documentele HTML, și să apreciezi valoarea utilizării Unicode
să știi când și cum să declari codarea de caractere (charset) pentru documente care folosesc HTML și CSS
să fii constient de anumite aspecte problematice de redare și codare a fișierelor HTML în browsere vechi
să ințelegi ce inseamnă termenii marcare byte-order și normalizare, cum te pot afecta, și cum să lucrezi cu ele
să ințelegi când și cum să folosești surogatele pentru a reprezenta caractere

Acest editor adună impreună și organizează direcții către articole care, luate împreună, ne ajută să ințelegem cum să manevram aspectele esentiale ale autorizarii HTML și CSS în legatura cu caracterele și codările caracterelor.

Pe scurt

Salvați paginile ca UTF-8, de câte ori puteți.

Declarați de fiecare dată codarea unui document. Folosiți antetul HTTP dacă puteți. Folosiți de asemenea mereu declarația din document.

<meta charset="utf-8">

Poti folosi @charset sau headerele HTTP pentru a declara codarea foii tale de stil, dar trebuie sa faci asta doar daca foaia ta de stil contine caractere non-ASCII si, din varii motive nu te poti baza pe codarea HTML si a foii de stil asociate in acelasi timp.

Incercați să evitați folosirea semnului byte-order în UTF-8, și asigurați-vă că codul vostru HTML este salvat în formularul de normalizare C Unicode (NFC).

Evitați folosirea surogatelor, cu excepția caracterelor invizibile și ambigue. Și nu folosiți caractere de control Unicode cand puteți folosi marcare.

Informații esențiale de fundal

Dacă sunteți nou în acest domeniu, sunt câteva concepte fundamentale pe care trebuie sa le întelegeți dacă doriți să urmariți diverse părti ale acestui tutorial. Dacă sunteți familiarizat cu aceste concepte, puteți să săriți la următoarea secțiune.

Alegerea și aplicarea codării de caractere

Conținutul este compus dintr-o secventă de caractere. Caracterele reprezintă litere din alfabet, punctuație, etc. Dar conținutul este stocat într-un computer ca o secventă de bytes, care sunt valori numerice. Uneori mai mult de un byte este folosit pentru a reprezenta un singur caracter. Ca și codurile folosite în spionaj, felul în care secventa de bytes este convertită în caractere depinde de ce cheie a fost folosită pentru a coda textul. În acest context, cheia este denumită o codare de caracter.

Sunt mai multe tipuri de codare de caracter din care putem alege. Această parte din tutorial oferă sfaturi simple legate de ce codare de caracter să folosim pentru conținutul nostru și cum să o aplicăm.

Alegerea și aplicarea unei codări de caracter ofera sfaturi simple despre ce caractere de codare sa folosim pentru continutul vostru, si cum sa il aplicam.

Cum să declarăm codarea de caracter

Ar trebui să specificați de fiecare dată codarea folosită pentru o pagină HTML sau XML. Daca nu o faceți, riscați ca caracterele din conținut să fie interpretate greșit. Aceasta nu este doar o chestiune de citire pentru oameni, ci și calculatorul trebuie să ințeleagă aceste date. Ar trebui să verificați de asemenea să nu folosiți codări diferite in locuri diferite.

Declararea codărilor de caractere în HTML vă va oferii un set de recomandări rapide pentru cei care vor doar să afle ce au de făcut, și informații mai detaliate pentru cei care au nevoie de ele.

Declararea codării de caractere în CSS ofera informații pentru CSS.

Semnul byte-order (BOM)

Semnul byte-order, sau BOM, este ceva peste care veți da atunci când folosiți o codare de caracter bazată pe Unicode, cum ar fi UTF-8 și UTF-16. În unele cazuri veți fi nevoiți să stergeți BOM-ul, pentru a vă asigura că e acolo.

Semnul byte-order (BOM) în HTML va ajuta sa intelegeti problemele.

Formularele de normalizare Unicode

Normalizarea este ceva ce trebuie să conștientizați dacă autorizați pagini HTML cu foi de stil CSS în UTF-8 (sau orice alta codare Unicode), în special dacș le folosiți cu text într-un script care folosește accente sau alte diacritice.

Normalizarea în HTML și CSS explica acest lucru in continuare.

Folosirea surogatelor de caractere

Puteți folosi un surogat de caracter pentru a reprezenta orice caracter din setul de caractere în HTML, XML sau CSS folosind numai caractere ASCII.

Folosirea surogatelor de caracter în marcare și CSS ofera cele mai bune practice pentru folosirea caracterelor de degajare, si va spune cum sa le folositi atunci cand sunt necesare.

Caractere sau marcaje?

În sfarșit, sunt o serie de caractere Unicode tip control, unele din ele indeplinesc același rol ca marcaj. Întrebarea este, pe care îl folosim, și pe care îl evitam?

Caractere sau marcaj? Raspunde la intrebare.