Accesskey n springt zur Seitennavigation. Springe zum Inhalt.

Dieses Dokument ist eine Übersetzung. Im Falle von Abweichungen oder Fehlern sollte das aktuelle englische Original als maßgeblich angenommen werden. Das W3C besitzt das Copyright am Original, wie unten beschrieben.

Übersetzer: Gunnar Bittersmann

s_gotoW3cHome Internationalisierung
 

Zeichencodierungen

Zielgruppe: alle, die eine kurze Zusammenfassung der wichtigsten Informationen zu Zeichencodierungen in HTML und XML suchen. Für weitere Informationen siehe Links im Text und Literaturhinweise.

Dokument-Zeichensatz

Der Dokument-Zeichensatz von XML und HTML (ab Version 4.0) ist Unicode (ISO 10646). Das heißt, dass HTML-Browser und XML-Prozessoren sich so verhalten sollten, als ob sie intern Unicode verwenden. Das bedeutet aber nicht, dass die Dokumente als Unicode übertragen werden müssen. Wenn sich Client und Server über die Zeichencodierung verständigen, können sie jede Codierung verwenden, die in Unicode umgewandelt werden kann. Siehe Weiteres zum Dokument-Zeichensatz.

Zeichencodierung angeben

Es ist sehr wichtig, die Zeichencodierung jedes XML- oder (X)HTML-Dokuments richtig anzugeben, damit Clients die Zeichencodierung auf Unicode abbilden können. Die Zeichencodierung kann auf folgende Arten angegeben werden:

Welcher Ansatz sich für welche Art von (X)HTML-Dokument am besten eignet, wird im Tutorial Zeichensätze und Zeichencodierungen in XHTML, HTML und CSS diskutiert.

Die obigen Beispiele zeigen Angaben für UTF-8-codierte Inhalte. Das ist sicherlich die beste Zeichencodierung für die meisten Zwecke, aber nicht die einzige Möglichkeit.

Wenn nicht UTF-8 verwendet wird, muss utf-8 in den obigen Beispielen durch den Namen der verwendeten Zeichencodierung ersetzt werden. Dieser kann in der vollständigen Liste der Namen der von der IANA registrierten Zeichencodierungen (lang) nachgesehen werden. In der Praxis werden einige wenige Zeichencodierungen bevorzugt verwendet: ISO-8859-1 (Latin-1), US-ASCII, UTF-16, die anderen Codierungen der ISO-8859-Serie, iso-2022-jp, euc-kr usw.

Sicherstellen, dass die Angabe wirkt

Es ist wichtig, nicht nur die Zeichencodierung in HTTP bzw. im Inhalt anzugeben, sondern auch:

Für weitere Informationen siehe Links in Änderung der Zeichencodierung einer (X)HTML-Seite auf UTF-8. Obwohl aus der UTF-8-Perspektive geschrieben, gilt dies auch für andere Zeichencodierungen.

Übrigens

Werte für Zeichencodierungs-Attribute können im IANA-Register nachgesehen werden. Beachte, dass sie charset-Namen genannt werden, obwohl sie sich eigentlich auf Zeichencodierungen beziehen, nicht auf Zeichensätze.

Für in die Tiefe gehende Informationen zur Bezeichnung 'charset' siehe Dan Connollys Artikel "Character Set" Considered Harmful und Glenn Adams’ Antwort Character Set Terminology, SC2 vs. SC18 vs. Internet Standards.

Historische Anmerkung: Rick Jellife schlug die Verwendung der SPREAD-Entities von ERCS vor.

Sagen Sie uns, was Sie denken (auf Englisch).

Abonnieren Sie unseren RSS-Feed.

Neue Ressourcen

News auf der Startseite

Twitter (News auf der Startseite)

‎@webi18n

Literaturhinweise

Hilfreiche Einführungen:

Referenzen in Spezifikationen:

Weitere Links:

Autor: Bert Bos, W3C. Geändert von: Martin J. Dürst, W3C; Richard Ishida, W3C. Übersetzer: Gunnar Bittersmann.

Valides XHTML 1.0!
Valides CSS!
Kodiert in UTF-8!

Übersetzung der englischen Version vom 2006-07-20. Letzte Änderung der übersetzten Version am 2011-01-26 20:10 UTC.

Suchen Sie nach article-O-charset im i18n-Blog, um alle Dokumentänderungen nachzuvollziehen.