Caracteres y glifos faltantes

Descripción del problema

La tecnología web se basa en el repertorio de caracteres de Unicode/ISO 10646 (consulteModelo de caracteres). Unicode incluye una gran cantidad de caracteres que cubren una amplia gama de sistemas de escritura e idiomas. Sin embargo, en algunos casos, es posible que haya elementos faltantes:

  1. El carácter no existe. Las soluciones propuestas incluyen la codificación de caracteres, el uso de etiquetas para caracteres específicos, y los puntos de codificación de uso privado.
  2. El carácter existe, pero usted desea seleccionar una variante de glifo en particular.
  3. El carácter existe, pero no está disponible el glifo para mostrarlo. Esto puede resolverse mediante tecnologías tales como fuentes web y fuentes SVG.
  4. El carácter existe en Unicode/ISO 10646, pero no en la codificación de caracteres usada para el documento. En este caso, utilice las referencias de caracteres numéricos (NCR, por ejemplo: 噸).
  5. El carácter existe en Unicode/ISO 10646, pero desea darle un nombre en lugar de codificarlo directamente. Puede usar entidades nombradas definidas en un DTD (p. ej. é en (X)HTML). Se han propuesto otras soluciones, comoxmlchar, que usa un elemento por carácter y un XSLT para convertirlos.

El punto 1 y 2 a menudo están incluidos dentro del término "problema gaiji".

Casos de uso

Ideogramas de Asia Oriental (consulte también gaiji), símbolos matemáticos, ligaduras especiales...

Selección de variantes de glifos

A menudo, es importante mostrar un glifo en particular para un determinado carácter. Los estilos con CSS o XSL pueden ocuparse del tamaño, el estilo de fuente y algunas otras propiedades. No obstante, en ocasiones, es necesario usar variantes de glifos más específicas. Existen varias propuestas para hacer esto:

Selectores de variantes de glifo de Unicode

Uso de etiquetas para caracteres y símbolos específicos

La idea es definir un elemento especial con atributos que proporcionen o señalen la información necesaria para procesar o representar el carácter. Esto conduce a una solución sumamente localizada, y por lo tanto, sumamente flexible y estable. La etiqueta real puede tener un aspecto muy similar a la usada para la selección de variantes de glifos, la principal diferencia es que no hay contenido de caracteres que sirva como recurso alternativo (en algunos casos, el contenido del elemento puede ser un recurso alternativo primitivo, como <html:img>, o bien, se usa un punto de codificación de uso privado).

Ejemplos que definen el uso de etiquetas para caracteres específicos:

¿Es necesario un elemento o atributo genérico que pueda usarse ampliamente? ¿Sirve de algo definir un tipo de ancestro común para tales elementos? También está la necesidad de describir las propiedades de los caracteres. Consulte, por ejemplo, el proyecto CHISE, que usa mapas temáticos.

Caracteres de codificación

Es posible presentar una propuesta para codificar algunos caracteres al Comité Técnico de Unicode así como a ISO/IEC SC2 WG2. Esto requiere una preparación cuidadosa y lleva tiempo, aunque en muchos casos, es lo que se debe hacer. Por otra parte, es posible que algunos elementos que se perciben como caracteres no sean adecuados para la codificación, o es posible que un carácter ya se haya codificado, pero que usted desee una variante de glifo en particular.

Puntos de codificación de uso privado

Unicode/ISO 10646 reservan el Área de uso privado en el BMP (U+E000-U+F8FF), y los planos 15 y 16 para uso privado. Esto significa que estos puntos de codificación quedan para siempre sin definir, pero pueden usarse entre cualquiera de dos partes con un acuerdo previo.

El problema principal con los puntos de codificación de uso privado es que es necesario que se comprenda para qué se usan estos puntos de codificación. Sin embargo, los acuerdos privados aumentan demasiado en la web. Se han presentado varias propuestas para asociar la información adicional con un tipo de documento (DTD/XML Schema), con un documento, o con alguna parte de un documento.

Sin embargo, en todos los casos, la edición y el procesamiento distinto de documentos con tal información asociada resultaría muy complicado. Asimismo, la información del carácter se conserva únicamente si todas las operaciones que lo procesan conservan la información asociada correctamente. Dado que los caracteres faltantes no son un problema muy frecuente, es bastante poco razonable que, por ejemplo, cada sistema de escritura Perl que trabaje con XML haga lo correcto. El uso deetiquetas para caracteres específicos faltantes es mucho más estable.

Gaiji

Gaiji (外字, caracteres extranjeros/externos) es un término que a menudo se usa en Japón para referirse tanto a los caracteres no codificados como a las variantes de glifos faltantes.

Antecedentes

Charla en la12a Conferencia Internacional sobre Unicode celebrada en Tokio, Japón, en abril de 1998: Análisis de las posibilidades que tienen las tecnologías web para trabajar con ideogramas poco frecuentes y variantes de ideogramas (Exploring the Potentials of Web Technologies for the Handling of Rare Ideographs and Ideograph Variants).