Obsługa kodowania znaków w HTML i CSS

Potencjalni odbiorcy: Twórcy stron HTML/XHTML i stylów CSS. Ten materiał ma zastosowanie zarówno przy tworzeniu dokumentów w edytorze, jak i przy użyciu skryptów.

Ten poradnik zbiera i organizuje odnośniki do artykułów, które jako całość, pomogą jak obsługiwać podstawowe aspekty tworzenia dokumentów (X)HTML i CSS związane ze znakami i ich kodowaniem.

W skrócie

To sekcja dla tych, którym się spieszy, więc chcieliby poznać tylko kluczowe zalecenia tego poradnika. Jeżeli czegoś nie rozumiesz, lub chciałbyś poznać więcej szczegółów, przeczytaj resztę tego poradnika.

Jeśli to możliwe, zapisuj strony w kodowaniu UTF-8.

Zawsze deklaruj kodowanie swojego dokumentu. Jeśli to możliwe, korzystaj z nagłówka HTTP. Zawsze korzystaj też z deklaracji w obrębie samego dokumentu. Ta tabela podpowie ci jak to zrobić w zależności od formatu, z jakiego korzystasz. Korzystaj z nazw kodowania z rejestru IANIA.

Jeżeli zawartość twojej strony nie jest kodowana w systemie ASCII, korzystaj z reguły @charset dla zewnętrznych arkuszy stylów (ale nie dla CSS na twojej stronie HTML), na przykład nazw czcionek, identyfikatorów, nazw klas, etc.

Staraj się unikać znaczników kolejności bajtów w kodowaniu UTF-8 i upewnij się, że twój kod HTML został zapisany w formie normalizacyjnej C standardu Unicode (NFC).

Unikaj stosowania znaków modyfikacji, z wyjątkiem znaków niewidocznych lub niejednoznacznych. Ponadto nie korzystaj ze znaków kodu sterującego jeśli istnieje możliwość użycia znaczników.

Artykuły, do których kierują odnośniki opisują najnowsze poglądy związane ze specyfikacją HTML5. Warto jednak zauważyć, że specyfikacja HTML5 nie jest stabilna, więc wszystkie tego typu informacje należy traktować z pewną dozą ostrożności.

Podstawowe informacje

Jeżeli temat kodowania jest dla ciebie nowy, oto kilka podstawowych koncepcji, które musisz zrozumieć, jeżeli chcesz nadążać za wyjaśnienaimi w poszczególnych częściach tego poradnika. Jeżeli poniższe koncepcje nie są ci obce, możesz przejść do następnej sekcji.

Wybór i ustawienie kodowania znaków

Zawartość strony składa się z ciągów znaków. Znaki reprezentują litery alfabety, interpunkcję, etc. Jednak zawartość stron jest przechowywana przez komputer w formie ciągu bajtów, czyli wartości numerycznych. Czasami więcej niż jeden bajt jest używany do reprezentacji pojedynczego znaku. Niczym szyfry wykorzystywane przez szpiegów, sposób, w jaki ciąg bajtów jest konwertowany na znaki zależy od klucza, którego użyto do zaszyfrowania tekstu. W opisywanym tu kontekście klucz ten nazywamy kodowaniem znaków.

Istnieje wiele rodzajów kodowania znaków. Ta część poradnik przedstawia proste wskazówki o tym, którego kodowania użyć i jak je ustawić.

Wybór i ustawienie kodowania znaków omawia następujące zagadnienia:

Jak deklarować kodowanie znaków

Zawsze należy określić kodowanie użyte na stronie HTML lub XML. Jeżeli tego nie zrobisz, ryzykujesz niewłaściwą interpretację znaków na twojej stronie. To problem nie tylko ze względu na trudność w odczytaniu tekstu przez użytkownika, coraz częściej maszyny także muszą potrafić odczytać twoje dane. Powinieneś również upewnić się, że nie deklarujesz różnego kodowania w różnych miejscach.

Deklaracja kodowania znaków HTML - dokument ten zawiera zarówno szybkie zalecenia dla tych, którzy chcą tylko dowiedzieć się jak postępować jak i szczegółowe informacje dla zainteresowanych.

Deklaracja kodowania znaków CSS - dokument zawiera te same informacje dotyczące stylów CSS.

  1. Krótkie rekomendacje
  2. Szczegóły:

 

Znacznik kolejności bajtów (BOM)

Znacznik kolejności bajtów, w skrócie BOM, to coś, z czym przyjdzie ci się spotkać podczas korzystania z kodowania znaków w standardzie Unicode, na przykład UTF-8 i UTF-6. W niektórych przypadkach będziesz musiał usunąć znacznik BOM, w innych będziesz musiał zadbać, żeby był on obecny.

Znacznik kolejności bajtów (BOM) w HTML - dokument obejmuje zagadnienia:

Formy normalizacji standardu Unicode

Normalizacja to coś, czego musisz zdawać sobie sprawę podczas tworzenia stron HTML i arkuszy CSS w kodowaniu UTF-8 (i w każdym innym kodowaniu Unicode), zwłaszcza kiedy pracujesz z tekstem w formie skryptu, który korzysta ze znaków akcentowania lub innych znaków diakrytycznych.

Normalizacja w HTML i CSS - dokument obejmuje zagadnienia:

Korzystanie ze znaków modyfikacji

Za pomocą znaków modyfikacji można w dokumentach HTML, XML i CSS zapisać dowolny znak standardu Unicode korzystając tylko ze znaków ASCII.

Korzystanie ze znaków modyfikacji w znacznikach i stylach CSS - dokument obejmuje zagadnienia:

Znaki czy znaczniki?

Na koniec, w standardzie Unicode istnieje wiele znaków kontrolnych pełniących tę samą funkcję co znaczniki. Pytanie brzmi, z których można korzystać, a których unikać?

Znaki czy znaczniki? - dokument obejmuje zagadnienia: