Le W3C publie une recommandation essentielle pour l'internationalisation du Web

Le « Modèle de caractères pour le Web -- Principes de base » propose une approche unifiée pour l'utilisation de texte sur le Web

http://www.w3.org/ -- 15 février 2005 -- Le Consortium World Wide Web (W3C) publie la recommandation W3C « Modèle de caractères pour le Web -- Principes de base » (Character Model of the World Wide Web: Fundamentals). Cette spécification apporte aux applications Web un moyen bien défini et compréhensible de transmettre et de traiter les caractères des langues du monde entier.

Cette recommandation apporte aux auteurs de spécifications et aux développeurs de logiciel et de contenu une référence architecturale commune, permettant ainsi l'interopérabilité dans la manipulation de textes sur le Web. Elle s'appuie sur le jeu universel de caractères défini conjointement par le standard Unicode et par l'ISO/IEC 10646. Le document traite de l'utilisation des termes 'caractère', 'codage' et 'chaîne de caractères', du modèle de traitement de référence, du choix et de l'identification des codages de caractères, des mécanismes d'échappement et de l'indexation des chaînes.

L'objectif du modèle de caractères pour le World Wide Web -- découlant de la mission d'accès universel du W3C -- est de faciliter l'utilisation du Web par tous sans égard à la langue, à l'écriture et aux conventions culturelles.

Unicode, jeu universel de caractères pour le Web

Au cœur du modèle de caractères se trouve le jeu universel de caractères (JUC). Le modèle permet aux technologies Web d'utiliser du texte dans les écritures du monde (et sur différentes plates-formes) et permet au texte d'être échangé, lu et recherché par les utilisateurs du Web du monde entier. Unicode a été choisi parce qu'il permet de faire référence aux caractères sans égard au codage, et parce que le standard est soigneusement mis à jour, largement accepté et mis en œuvre par l'industrie.

Unicode était déjà, depuis HTML 4.0, le jeu de caractères de document pour HTML. La même approche a été utilisée plus tard pour d'autres recommandations comme XML 1.0 et CSS 2. Les spécifications W3C et les applications utilisent maintenant Unicode comme jeu de caractères de référence.

La nouvelle spécification clarifie l'usage des caractères sur le Web

La croissance du Web s'est faite à un point tel qu'il peut se faire passer pour une application vaste mais unique, plutôt que d'être vue comme un ensemble d'applications petites et indépendantes.

Avec un nombre croissant d'applications Web, il est devenu de plus en plus essentiel de partager un modèle de caractères commun. Unicode est le choix naturel pour être le fondement d'un tel modèle, d'autant plus que les développeurs d'applications commencent à consolider leurs options de codage. Toutefois, l'application d'Unicode au Web exige des précisions complémentaires, qui sont l'objet de la série de documents « Modèle de caractères pour le Web » du W3C.

La série traite notamment des aspects particuliers au Web suivants :

Choix de forme de codage d'Unicode (UTF-8, UTF-16, UTF-32)
Comptage de caractères, mesure de longueur de chaîne en présence de codages à longueur variable et de caractères combinatoires
Codages de caractères redondants (par ex. décomposé et pré-composé)
Représentation de caractères par mécanisme d'échappement

Une série de documents à compléter en cours d'année

La recommandation publiée ce jour est le premier d'une série de trois documents. Les deux autres -- en cours de développement -- sont : « Modèle de caractères pour le Web -- Normalisation » (Character Model for the World Wide Web 1.0: Normalization) qui traite de normalisation et d'identité des chaînes de caractères, et de « Modèle de caractères pour le Web -- Identificateurs de ressources » (Character Model for the World Wide Web 1.0: Resource Identifiers) qui précisent des conventions au sujets des IRI (adresses Web internationalisées).

Implication des acteurs clés de l'industrie dans le développement de la série « Modèle de caractères »

Le modèle de caractères a été développé par le groupe de travail Internationalisation, partie de l'activité du même nom au W3C, avec l'aide du groupe d'intérêt Internationalisation. Les membres du W3C ayant participé comprennent BBC, Boeing, l'École Mohammadia d'Ingénieurs, IBM, Microsoft, Siemens, Sun Microsystems, System Concepts et webMethods.

À propos du Consortium World Wide Web (W3C)

Le W3C a été créé pour mener le Web à son plein potentiel en développant des protocoles communs qui facilitent son évolution et assurent son interopérabilité. C'est un consortium industriel international, piloté conjointement par le Groupement Européen de Recherche en Informatique et en Mathématiques (ERCIM) basé en France, l'Université de Keio au Japon, et le Laboratoire d'Informatique et d'Intelligence Artificielle du MIT (MIT CSAIL) aux Etats-Unis. Les services fournis par le Consortium se composent de : la constitution et la mise à disposition d'informations concernant le World Wide Web à destination des développeurs et des utilisateurs ; la mise en œuvre de logiciels permettant d'incorporer et de promouvoir les standards ; la mise en place de diverses applications prototypes visant à démontrer l'utilisation des nouvelles technologies. Le Consortium compte plus de 350 Membres. Pour plus d'informations sur le Consortium World Wide Web, consulter site Web du W3C: http://www.w3.org/

Contacts Presse W3C :
Amériques et Australie -- Janet Daly, <janet@w3.org>, +1.617.253.5884
Europe, Afrique et Moyen-Orient -- Marie-Claire Forgue, <mcf@w3.org>, +33.4.92.38.75.94
Asie -- Yasuyuki Hirakawa, <chibao@w3.org>, +81.466.49.11.70