¿Caracteres o lenguaje de etiquetas?

Pregunta

Hay una variedad de caracteres Unicode de control, algunos de los cuales cumplen la misma función que las etiquetas. ¿Cuál debería usar y cuál debería evitar?

Respuesta

La respuesta depende de qué caracteres estén considerándose. Para conocer más detalles, debería leer el Informe Técnico de Unicode y la Nota de W3C Unicode en XML u otros lenguajes de etiquetas. Este artículo resumirá parte de esa información.

Algunos caracteres de Unicode no son apropiados para su uso con lenguajes de etiquetas

La siguiente tabla enumera los caracteres de Unicode que no deberían utilizarse en un contexto de lenguaje de etiquetas, según Unicode en XML u otros lenguajes de etiquetas. Por el contrario, debería usar lenguaje de etiquetas.

Nombres/descripción Breve comentario
Separador de línea y párrafo utilice <br>, <p>, o equivalente
Controles de incrustación BIDI (LRE, RLE, LRO, RLO, PDF) Se recomienda firmemente no usarlos cuando haya lenguaje de etiquetas.
Intercambio simétrico activo/desactivado Reprobado en Unicode
Formato árabe activo/desactivado Reprobado en Unicode
Formas de dígito nacional activas/desactivadas Reprobado en Unicode
Caracteres de anotación interlineal Utilizar etiquetado ruby
Marca de orden de bytes /ZWNBSP Utilizar sólo como marca de orden de byte. Utilizar unión de palabra U+2060 en lugar de U+FEFF como ZWNBSP
Carácter de reemplazo de objeto Utilizar lenguaje de etiquetas, por ejemplo, HTML <object> or HTML <img>
Selección para anotaciones musicales Utilizar un lenguaje de etiquetas apropiado
Puntos de codificación de etiqueta de idioma Utilizar lang o xml:lang

Los controles de incrustación de texto bidireccional, en particular, frecuentemente generan confusión. Hay algunos lugares en los que debe utilizárselos para producir texto bidireccional correctamente ordenado en idiomas que utilizan sistemas de escritura de derecha a izquierda, como el árabe, el hebreo, el thaana, etc. Esos son lugares en los que un elemento no permite el uso de lenguaje de etiquetas incrustado, como el elemento título. No obstante, cuando haya disponible lenguaje de etiquetas, debería usarlo. Para obtener más información al respecto, consulte Controles Unicode vs. lenguaje de etiqueta para soporte bidi. Para obtener ayuda sobre cómo utilizar los controles de incrustación en situaciones en las que no pueda utilizarse el lenguaje de etiquetas, consulte Uso de controles Unicode para texto bidi.

Otros caracteres Unicode son correctos

Esta no es una lista completa. Su mera intención es brindar algunos ejemplos de caracteres Unicode válidos para su uso adicional al lenguaje de etiquetas a fin de brindar información sobre el texto.

Nombres/descripción Breve comentario
Varios espacio sin división, guión corto, combinación de unión de grafema, guión sin división, unión de palabra, etc.
Uniones con ancho cero (ZWJ y ZWNJ) por ejemplo, necesarias para persa
Marcas direccionales implícitas (LRM y RLM)
Marcas extendidas característica común en los sistemas de escritura árabe y sirio
Selectores de variación por ejemplo, necesarios para mongol
Caracteres de descripción ideográfica indica la composición de los ideogramas

La adecuación de los "caracteres de compatibilidad" varía

Esto es tomado de Unicode en XML y otros lenguajes de etiquetas:

La Norma Unicode brinda mapeos de compatibilidad para una cierta cantidad de caracteres. Los mapeos de compatibilidad indican una relación con otro carácter, pero la naturaleza exacta de la relación varía. En algunos casos, la relación significa "está basado en", en otros casos, denota una propiedad. Cuando se etiqueta texto común, quizá tenga sentido mapear algunos de estos caracteres a sus equivalentes de compatibilidad y lenguaje de etiquetas apropiado. Es importante entender la naturaleza de las distinciones entre caracteres y sus equivalentes de compatibilidad, y el contexto en el cual dichas distinciones importan. Nunca es recomendable aplicar mapeos de compatibilidad de manera indiscriminada.

La siguiente tabla brinda una lista parcial de ejemplos.

Nombres/descripción Ejemplos Veredicto
Letras y dígitos encerrados en círculos utilizados para enumerar marcadores de ítems ① ② ③ Ⓐ Ⓑ Ⓒ ㊂ ㊃ ㊄ ㊓ ㊔ ㊕ ㋝ ㋞ ㋟ OK
Números entre paréntesis o con viñetas utilizados como marcadores de ítems de lista ⑴ ⑵ ⑶ utilizar el estilo de marcador de ítem de lista
Formas de presentación árabe ﻉ ﻊ ﻋ ﻌ normalizar
Caracteres de ancho medio y ancho completo ヤ ユ ヨ ラ a b c d OK
Caracteres en superíndice y subíndice ¹ ² ³ ₁ ₂ ₃ utilizar lenguaje de etiqueta <sup> o <sub>