Accesskey n springt zur Seitennavigation. Springe zum Inhalt.
Dieses Dokument ist eine Übersetzung. Im Falle von Abweichungen oder Fehlern sollte das aktuelle englische Original als maßgeblich angenommen werden. Das W3C besitzt das Copyright am Original, wie unten beschrieben.
Übersetzer: Gunnar Bittersmann
Zielgruppe: HTML/XHTML- und CSS-Autoren. Das hier Gesagte gilt sowohl für im Editor geschriebene als auch für durch Scripte erzeugte Dokumente.
Dieses Tutorial gibt Ihnen einen geordnete Sammlung von Verweisen zu Artikeln, die in ihrer Gesamtheit zum Verständnis der grundlegenden Aspekte von Zeichen und Zeichencodierungen beim Verfassen von (X)HTML und CSS dienen.
Dieser Abschnitt ist für Eilige, die einfach nur die Kernaussagen dieses Tutorials wissen möchten. Wenn Sie etwas nicht verstehen oder an weiteren Details interessiert sind, lesen Sie den Rest des Tutorials.
Speichere Webseiten möglichst immer in UTF-8.
Gib immer die Zeichencodierung des Dokuments an: im HTTP-Header, wenn möglich; zusätzlich auch immer im Dokument selbst. Diese Tabelle zeigt, wie es in verschiedenen Formaten gemacht wird. Verwende die Zeichencodierungs-Bezeichner aus dem IANA-Register.
Verwende die @charset-Regel für externe Stylesheets (aber nicht für CSS in HTML), wenn Nicht-ASCII-Zeichen vorkommen, bspw. in Namen von Schriftarten, ID- oder Klassenbezeichnern usw.
Verwende kein BOM in UTF-8. Speichere HTML-Code in Unicode-Normalisierungsform C (NFC).
Verwende keine Zeichen-Escapes, außer für unsichtbare oder mehrdeutige Zeichen. Verwende keine Unicode-Steuerzeichen, wenn es auch Markup dafür gibt.
Wenn ein Browser nicht die bei einer Webseite verwendete Zeichencodierung erkennen kann, ist der Inhalt möglicherweise unlesbar. Die Informationen in diesem Tutorial sind besonders wichtig für jene, die eine mehrsprachige Website pflegen und erweitern, doch die Angabe der Zeichencodierung eines Dokuments ist für jeden wichtig, der (X)HTML oder CSS mit Nicht-ASCII-Zeichen verfasst. Denn obwohl es bei Ihnen gut aussehen mag, können die Browsereinstellungen bei anderen die Lesbarkeit beeinträchtigen. Dieses Tutorial macht Ihnen das Thema verständlich, damit Sie die richtigen Entscheidungen treffen können.
Nachdem Sie dieses Tutorial durchgearbeitet haben, sollten Sie:
Die Artikel, auf die hier verwiesen wird, beschreiben den neuesten Stand gemäß der HTML5-Spezifikation. Es muss jedoch erwähnt werden, dass die HTML5-Spezifikation noch Änderungen unterworfen ist. Sie sollten diese Informationen also mit Vorsicht genießen.
Wenn Sie Neuling auf dem Gebiet sind, gibt es einige grundlegende Konzepte, die Sie verstehen sollten, um den weiteren Teilen dieses Tutorials folgen zu können. Wenn Sie mit diesen Konzepten vertraut sind, können Sie zum nächsten Abschnitt springen.
Inhalt setzt sich aus einer Sequenz von Zeichen zusammen. Zeichen repräsentieren die Buchstaben des Alphabets, Interpunktionszeichen usw. In einem Computer wird der Inhalt jedoch als eine Sequenz von Bytes gespeichert, das sind Zahlenwerte. Manche Zeichen werden durch mehr als ein Byte dargestellt. Wie bei Chiffren in der Spionage hängt die Art, wie Sequenzen von Bytes in Zeichen umgewandelt werden, von dem Schlüssel ab, mit dem der Text codiert wurde. Den Schlüssel nennt man in diesem Kontext Zeichencodierung.
Es stehen viele Zeichencodierungen zur Auswahl. Dieser Teil des Tutorials gibt Ihnen einfache Ratschläge, welche Zeichencodierung Sie für Ihre Inhalte verwenden sollten und wie man diese anwendet.
Eine Zeichencodierung wählen und anwenden beinhaltet folgendes:
Man sollte immer die für ein HTML- oder XML-Dokument verwendete Zeichencodierung angeben. Andernfalls riskiert man, dass Zeichen im Inhalt nicht korrekt interpretiert werden. Das betrifft nicht nur die Lesbarkeit für Menschen, in zunehmendem Maße müssen auch Maschinen Ihre Daten verstehen können. Sie sollten auch überprüfen, dass Sie nicht an verschiedenen Stellen verschiedene Zeichencodierungen angeben.
Angabe der Zeichencodierung in HTML gibt kurze Empfehlungen für jene, die schnell wissen möchten, was sie tun müssen, und detailliertere Information für diejenigen, die sie benötigen.
Angabe der Zeichencodierung in CSS gibt Informationen für CSS.
Auf das BOM (byte-order mark) stößt man, wenn man eine Unicode-basierte Zeichencodierung wie UTF-8 oder UTF-16 verwendet. In manchen Fällen muss man das BOM entfernen, in anderen Fällen dafür sorgen, dass eins vorhanden ist.
Das BOM (byte-order mark) in HTML behandelt:
Normalisierung muss man bedenken, wenn man HTML-Seiten mit CSS-Stylesheets in UFT-8 (oder einer anderen Unicode-Codierung) verfasst, insbesondere wenn man es mit Text zu tun hat, dessen Schrift Akzente oder andere diakritische Zeichen enthält (wie bspw. Umlaute – Anmerkung des Übersetzers).
Normalisierung in HTML und CSS behandelt:
Jedes Unicode-Zeichen lässt sich in HTML, XML oder CSS durch ein Zeichen-Escape darstellen (maskieren); in diesem kommen dann ausschließlich ASCII-Zeichen vor.
Verwendung von Zeichen-Escapes in Markup und CSS gibt Informationen zu folgenden Themen:
Es gibt in Unicode einige Steuerzeichen, wobei einige dieselbe Funktion erfüllen wie Markup. Es stellt sich die Frage: Welche sollte man verwenden und welche sollte man vermeiden?
Zeichen oder Markup? behandelt:
Sagen Sie uns, was Sie denken (auf Englisch).
Abonnieren Sie unseren RSS-Feed.
Twitter (News auf der Startseite)
Übersetzung der englischen Version vom 2010-08-12. Letzte Änderung der übersetzten Version am 2011-04-15 14:30 GMT
Suchen Sie nach tutorial-char-enc im i18n-Blog, um alle Dokumentänderungen nachzuvollziehen.
Copyright © 2010-2011 W3C® (MIT, ERCIM, Keio), All Rights Reserved. W3C liability, trademark, document use and software licensing rules apply. Your interactions with this site are in accordance with our public and Member privacy statements.