Einführung in Zeichensätze und Zeichencodierungen

Diese Seite gibt Anfängern auf dem Gebiet Internationalisierung im Web einen Anhaltspunkt, wo sie beginnen können, und führt sie zu einigen Artikeln auf dieser Website.

Auf der rechten Seite finden Sie Links zu ausgewählten Artikeln. Weitere Artikel finden Sie in den Verzeichnissen der Themen und Techniken sowie über die Suche auf dieser Website.

Worum geht’s?

Weitere Informationen...

Zeichencodierung für Anfänger erklärt einige Grundlagen zu Zeichencodierungen und worauf Sie achten sollten..

Zeichencodierungen: Grundkonzepteerklärt Begriffe wie Unicode, Zeichensätze, codierte Zeichensätze, Zeichencodierungen, Dokumentzeichensatz und Zeichen-Escapes.

Ein Zeichensatz ist ein Satz von Buchstaben und Symbolen für eine Schrift. Der ASCII-Zeichensatz bspw. deckt die Buchstaben und Symbole für englischen Text ab, ISO 8859-6 jene für viele in arabischer Schrift geschriebene Sprachen und der Unicode-Zeichensatz enthält Zeichen für so ziemlich alle lebenden Sprachen und Schriftsysteme der Welt.

Die Zeichen eines Zeichensatzes werden im Computer in einem oder mehreren Bytes gespeichert. Jedes Byte bzw. jede Sequenz von Bytes repräsentiert ein bestimmtes Zeichen. Eine Zeichencodierung ist der Schlüssel, der ein bestimmtes Byte bzw. eine Bytesequenz zu einem Zeichen zuordnet. Durch die Schriftart werden die Zeichen als Text dargestellt.

Es gibt viele verschiedene Zeichencodierungen. Wenn die falsche Zeichencodierung auf die Bytes im Speicher angewendet wird, entsteht unlesbarer Text. Damit Ihr Text gelesen werden kann, ist es wichtig, dass Sie die verwendete Zeichencodierung richtig angeben.

Eine Zeichencodierung wählen

Jeder, der Inhalte ins Web bringt – Autor wie Programmierer – muss entscheiden, welche Zeichencodierung er verwenden möchte. UTF-8 ist heutzutage die beste Empfehlung. Es gibt aber einige Dinge zu beachten, wenn Sie UTF-8 verwenden.

Weitere Informationen...

für HTML- und CSS-Autoren

für Entwickler von Spezifikationen

für Server-Administratoren

Die Zeichencodierung angeben und anwenden

Nach der Entscheidung für eine Zeichencodierung müssen Autoren bzw. Programmierer sicherstellen, dass diese auch richtig angegeben wird.

Bei XHTML ist die Angabe der Zeichencodierung nicht ganz unproblematisch: Dabei muss man Standard- vs. Quirksmodus beachten und welchen Einfluss die XML-Deklaration darauf hat.

Es genügt aber nicht, die Zeichencodierung einfach nur anzugeben. Sie müssen auch sicherstellen, dass Ihre Daten in der gewählten Zeichencodierung gespeichert werden.

Autoren und Webmaster müssen außerdem sicherstellen, dass der Server den Inhalt mit der richtigen Zeichencodierungsangabe ausliefert, denn Servereinstellungen können die Angaben im Dokument überschreiben.

Escapes

Escapes sind ein Mittel, um beliebige Zeichen ausschließlich durch ASCII-Zeichen zu repräsentieren. Sie ermöglichen es, auch solche Zeichen zu repräsentieren, die in der gewählten Zeichencodierung nicht direkt verfügbar sind oder aus anderen Gründen vermieden werden müssen (bspw. weil die Syntax sie verbietet). Sie sollten verstehen, wann und wie Escapes eingesetzt werden.

 

 

Weitere Informationen...

für HTML- und CSS-Autoren

für SVG-Autoren

für XML-Autoren

für Entwickler von Spezifikationen

Web-Adressen

Heutzutage dürfen Web-Adressen auch Nicht-ASCII-Zeichen enthalten. Der Nutzer klickt lediglich auf einen Link oder gibt eine Web-Adresse so ein, wie diese auch dargestellt wird (ggfs. mit Nicht-ASCII-Zeichen). Die Umwandlung führt der Browser aus. Vielleicht interessiert es Sie, wie das geschieht.

Entwickler von Spezifikationen sollten ihre Spezifikationen so entwerfen, dass Web-Adressen mit Nicht-ASCII-Zeichen verwendet werden können.

Weitere Informationen...

für HTML- und CSS-Autoren