Introducción a las codificaciones y a los sets de caracteres

Esta página brinda orientación a los principiantes de la internacionalización de la Web que realmente no saben por dónde comenzar. El objetivo es brindarle una introducción sencilla al material del sitio.

You can find a selection of more detailed articles using the links to the right. Once you get some ideas from this page, you will probably just use Learn to internationalize, or the site search.

¿De qué se trata?

Un set de caracteres es un grupo de letras y símbolos utilizados en un sistema de escritura. Por ejemplo, el set de caracteres ASCII incluye letras y símbolos para el texto en inglés, el ISO-8859-6 incluye letras y símbolos necesarios para muchos idiomas que se basan en el sistema de escritura árabe, en tanto que el set de caracteres Unicode incluye caracteres para la mayoría de las lenguas y los sistemas de escritura vivos del mundo.

Los caracteres de un set de caracteres ocupan uno o más bytes en la computadora. Cada byte o secuencia de bytes representa un determinado carácter. Una codificación de caracteres es la clave que convierte un determinado byte o una determinada secuencia de bytes en los caracteres específicos que la fuente representa como texto.

Existen muchas codificaciones de caracteres distintas. Si se aplica la codificación incorrecta a los bytes en la memoria, el resultado será un texto ilegible. Por lo tanto, es importante, si desea que las personas lean su contenido, que etiquete correctamente la codificación de caracteres utilizada.

Más información...

Codificaciones de caracteres para principiantesexplica algunos de los conceptos básicos acerca de las codificaciones de caracteres y por qué debe prestarles atención.

Definiciones fundamentales brinda información sobre Unicode, sets de caracteres, sets de caracteres codificados, codificaciones de caracteres, set de caracteres del documento y escapes de caracteres.

Selección de una codificación

Todos aquellos que desarrollan contenidos, ya sea como autores o programadores de contenidos, deben decidir qué codificación de caracteres utilizar. En la actualidad, se recomienda mucho la utilización de UTF-8, aunque probablemente deba considerar algunos puntos antes de utilizarlo.

 

 

Más información...

Autores de HTML & CSS

Desarrolladores de especificaciones

Configuración del servidor

Declaración y aplicación de una codificación

Una vez que se ha decidido la codificación que se utilizará, los desarrolladores y programadores de contenidos deben asegurarse de que esté declarada correctamente.

Con una tecnología como XHTML, las declaraciones de las codificaciones no siempre son sencillas; es necesario comprender los modos 'estándar' vs. 'quirks' y el impacto de la declaración de XML.

Asimismo, debe asegurarse de que sus datos se guarden en la codificación que ha seleccionado, no alcanza sólo con etiquetarlos.

Los desarrolladores de contenido y los administradores de sitios Web también deben asegurarse de que el servidor envíe contenido con las declaraciones de las codificaciones de caracteres correctas, dado que las configuraciones del servidor pueden invalidar las declaraciones que contiene el documento.

Escapes

Los Escapes son una forma de representar un carácter usando solamente texto ASCII. Brindan una forma de representar caracteres que no se encuentran disponibles en la codificación de caracteres que está utilizando o una forma de evitar el uso del carácter por otras razones (por ejemplo, debido a que puede generar conflicto con la sintaxis). Debe ser específico acerca de cuándo y cómo se deben usar estos escapes.

 

 

Direcciones Web

Actualmente, las direcciones Web también pueden incluir caracteres diferentes de ASCII. El usuario no hace mucho más que hacer clic en el enlace adecuado o ingresar el texto tal como lo ve, la tarea más difícil le toca al agente de usuario, aunque quizás le interese saber cómo funciona esto.

Los desarrolladores de especificaciones deben diseñar sus especificaciones de modo tal que puedan usarse direcciones Web con caracteres distintos de ASCII.

Más información...

Autores de HTML & CSS