Utiliser la touche d'accès n pour naviguer au sein de la page. Sauter au début du contenu.

Ce document est une traduction. En cas de divergences ou d'erreurs, la dernière version originale en anglais fait autorité. Comme indiqué ci-dessous, les droits d'auteur reviennent au W3C.

Traducteur: J.SOLARI, yoyodesign.org

s_gotoW3cHome Internationalisation
 

Les codages de caractères

Public visé : Toute personne désireuse d'un résumé des informations clés concernant les codages de caractères dans HTML et XML. Pour plus d'informations, suivre les liens dans le texte, ou voir le chapitre « Pour approfondir ».

Le jeu de caractères du document

Le jeu de caractères du document de XML et HTML 4.0 est Unicode (ou ISO 10646). Cela signifie que les navigateurs HTML et les processeurs XML devraient se comporter comme s'ils utilisaient Unicode en interne. Toutefois, ça ne veut pas dire que les documents doivent être transmis en Unicode. Tant que le client et le serveur s'accordent sur un codage, ils peuvent utiliser n'importe quel codage convertible en Unicode. Lire plus à propos du jeu de caractères du document.

Déclarer les codages

Il importe que le codage des caractères d'un document XML ou (X)HTML soit clairement étiqueté, de sorte que les clients puissent aisément le relier à Unicode. On y parvient par les méthodes suivantes :

Pour une discussion sur la meilleure approche à adopter selon le type du document (X)HTML, cf. le tutoriel « Les jeux de caractères et les codages dans XHTML, HTML et CSS ».

Les exemples précédents montrent des déclarations pour un contenu codé en UTF-8. Ce sera vraisemblablement la meilleure option de codage dans la plupart des cas mais ce n'est pas la seule possibilité.

Si vous n'utilisez pas UTF-8, remplacez la chaîne utf-8 dans les exemples par le nom du codage choisi. Vous pouvez consulter la liste complète des noms de codages de caractères enregistrés par l'IANA (elle est longue). En pratique, on préférera quelques codages, souvent les suivants : ISO-8859-1 (Latin-1), US-ASCII, UTF-16, les autres codages de la série des ISO-8859, iso-2022-jp, euc-kr, et ainsi de suite.

S'assurer que la déclaration fonctionne

Il importe non seulement d'utiliser les déclarations de codages précédentes dans HTTP ou dans le contenu, mais il faut aussi :

Pour des précisions sur ces questions, suivez les liens dans le document « Changer le codage de la page (X)HTML pour UTF-8 ». Quoique le document décrive une utilisation avec UTF-8, il convient pour tout codage utilisé.

En passant

On trouvera les valeurs de l'attribut encoding dans le registre de l'IANA. Remarquez qu'ils y sont appelés noms de charset, bien qu'ils désignent en réalité des codages, et non des jeux de caractères.

Si vous souhaitez des renseignements en profondeur à ce sujet, voir un article de Dan Connolly (« "Character Set" Considered Harmful ») et une réponse de Glenn Adams (« Character Set Terminology, SC2 vs. SC18 vs. Internet Standards »).

Note historique : Rick Jellife avait proposé d'utiliser les entités SPREAD de l'ERCS.

Donnez-nous votre avis (en anglais).

Abonnez-vous au flux RSS.

Nouvelles publications

Les nouvelles de la page d'accueil

Twitter (Les nouvelles de la page d'accueil)

‎@webi18n

Pour approfondir

Introductions utiles :

Références dans des spécifications :

Autres liens :

Par : Bert Bos, W3C. Modifié par : Martin J. Dürst, W3C; Richard Ishida, W3C. Traducteur : J.SOLARI, yoyodesign.org.

XHTML 1.0 valide !
CSS valide !
Codé en UTF-8 !

Traduit d’un contenu en anglais daté du 2006-07-20. Dernière modification de cette traduction le 2011-01-26 20:10 GMT.

Pour un résumé des changements importants, recherchez article-O-charset dans le blog i18n.