Accesskey n springt zur Seitennavigation. Springe zum Inhalt.
Dieses Dokument ist eine Übersetzung. Im Falle von Abweichungen oder Fehlern sollte das aktuelle englische Original als maßgeblich angenommen werden. Das W3C besitzt das Copyright am Original, wie unten beschrieben.
Übersetzer: Gunnar Bittersmann
Zielgruppe: alle, die eine kurze Zusammenfassung der wichtigsten Informationen zu Zeichencodierungen in HTML und XML suchen. Für weitere Informationen siehe Links im Text und Literaturhinweise.
Der Dokument-Zeichensatz von XML und HTML (ab Version 4.0) ist Unicode (ISO 10646). Das heißt, dass HTML-Browser und XML-Prozessoren sich so verhalten sollten, als ob sie intern Unicode verwenden. Das bedeutet aber nicht, dass die Dokumente als Unicode übertragen werden müssen. Wenn sich Client und Server über die Zeichencodierung verständigen, können sie jede Codierung verwenden, die in Unicode umgewandelt werden kann. Siehe Weiteres zum Dokument-Zeichensatz.
Es ist sehr wichtig, die Zeichencodierung jedes XML- oder (X)HTML-Dokuments richtig anzugeben, damit Clients die Zeichencodierung auf Unicode abbilden können. Die Zeichencodierung kann auf folgende Arten angegeben werden:
Senden des 'charset'-Parameters im HTTP-Content-Type-Header. Beispiel:
Content-Type: text/html; charset=utf-8Dazu ist Zugang zu den Servereinstellungen erforderlich oder das Dokument muss per Scripting ausgeliefert werden (siehe Einstellung des HTTP-Parameters 'charset' für weitere Informationen).
Für XML (einschließlich XHTML): Verwendung des encoding-Pseudoattributs in der XML-Deklaration am Dokumentanfang bzw. in der Textdeklaration am Anfang einer Entität. Beispiel:
<?xml version="1.0" encoding="utf-8" ?> Dabei gibt es mögliche Probleme zu beachten, wenn XHTML 1.0 als HTML ausgeliefert wird.
Bei HTML und als HTML ausgeliefertem XHTML sollte immer das <meta>-Element im <head> verwendet werden.
Beispiel:
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" >In XHTML muss am Ende ein Schrägstrich stehen:
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" />Welcher Ansatz sich für welche Art von (X)HTML-Dokument am besten eignet, wird im Tutorial Zeichensätze und Zeichencodierungen in XHTML, HTML und CSS diskutiert.
Die obigen Beispiele zeigen Angaben für UTF-8-codierte Inhalte. Das ist sicherlich die beste Zeichencodierung für die meisten Zwecke, aber nicht die einzige Möglichkeit.
Wenn nicht UTF-8 verwendet wird, muss utf-8 in den obigen Beispielen durch den Namen der verwendeten Zeichencodierung ersetzt werden.
Dieser kann in der vollständigen Liste der Namen der von der IANA registrierten Zeichencodierungen (lang) nachgesehen werden.
In der Praxis werden einige wenige Zeichencodierungen bevorzugt verwendet: ISO-8859-1 (Latin-1), US-ASCII, UTF-16, die anderen Codierungen der ISO-8859-Serie, iso-2022-jp, euc-kr usw.
Es ist wichtig, nicht nur die Zeichencodierung in HTTP bzw. im Inhalt anzugeben, sondern auch:
die Daten im Editor in der entsprechenden Zeichencodirerung zu speichern.
sicherzustellen, dass es keinen Widerspruch gibt zwischen dem, was im Dokument angegeben ist, und dem, was der Server automatisch angibt, denn die Servereinstellungen überschreiben die Angaben in Dokumenten.
Für weitere Informationen siehe Links in Änderung der Zeichencodierung einer (X)HTML-Seite auf UTF-8. Obwohl aus der UTF-8-Perspektive geschrieben, gilt dies auch für andere Zeichencodierungen.
Werte für Zeichencodierungs-Attribute können im IANA-Register nachgesehen werden. Beachte, dass sie charset-Namen genannt werden, obwohl sie sich eigentlich auf Zeichencodierungen beziehen, nicht auf Zeichensätze.
Für in die Tiefe gehende Informationen zur Bezeichnung 'charset' siehe Dan Connollys Artikel "Character Set" Considered Harmful und Glenn Adams’ Antwort Character Set Terminology, SC2 vs. SC18 vs. Internet Standards.
Historische Anmerkung: Rick Jellife schlug die Verwendung der SPREAD-Entities von ERCS vor.
Sagen Sie uns, was Sie denken (auf Englisch).
Abonnieren Sie unseren RSS-Feed.
Twitter (News auf der Startseite)
Übersetzung der englischen Version vom 2006-07-20. Letzte Änderung der übersetzten Version am 2011-01-26 20:10 GMT.
Suchen Sie nach article-O-charset im i18n-Blog, um alle Dokumentänderungen nachzuvollziehen.
Copyright © 31 May, 1996-2011 W3C® (MIT, ERCIM, Keio, Beihang), All Rights Reserved. W3C liability, trademark, document use and software licensing rules apply. Your interactions with this site are in accordance with our public and Member privacy statements.