¿Caracteres o lenguaje de etiquetas?

Respuesta

La respuesta depende de qué caracteres estén considerándose. Para conocer más detalles, debería leer el Informe Técnico de Unicode y la Nota de W3C Unicode en XML u otros lenguajes de etiquetas. Este artículo resumirá parte de esa información.

Algunos caracteres de Unicode no son apropiados para su uso con lenguajes de etiquetas

La siguiente tabla enumera los caracteres de Unicode que no deberían utilizarse en un contexto de lenguaje de etiquetas, según Unicode en XML u otros lenguajes de etiquetas. Por el contrario, debería usar lenguaje de etiquetas.

Nombres/descripción	Breve comentario
Separador de línea y párrafo	utilice <br>, <p>, o equivalente
Controles de incrustación BIDI (LRE, RLE, LRO, RLO, PDF)	Se recomienda firmemente no usarlos cuando haya lenguaje de etiquetas.
Intercambio simétrico activo/desactivado	Reprobado en Unicode
Formato árabe activo/desactivado	Reprobado en Unicode
Formas de dígito nacional activas/desactivadas	Reprobado en Unicode
Caracteres de anotación interlineal	Utilizar etiquetado ruby
Marca de orden de bytes /ZWNBSP	Utilizar sólo como marca de orden de byte. Utilizar unión de palabra U+2060 en lugar de U+FEFF como ZWNBSP
Carácter de reemplazo de objeto	Utilizar lenguaje de etiquetas, por ejemplo, HTML <object> or HTML <img>
Selección para anotaciones musicales	Utilizar un lenguaje de etiquetas apropiado
Puntos de codificación de etiqueta de idioma	Utilizar lang o xml:lang

Los controles de incrustación de texto bidireccional, en particular, frecuentemente generan confusión. Hay algunos lugares en los que debe utilizárselos para producir texto bidireccional correctamente ordenado en idiomas que utilizan sistemas de escritura de derecha a izquierda, como el árabe, el hebreo, el thaana, etc. Esos son lugares en los que un elemento no permite el uso de lenguaje de etiquetas incrustado, como el elemento título. No obstante, cuando haya disponible lenguaje de etiquetas, debería usarlo. Para obtener más información al respecto, consulte Controles Unicode vs. lenguaje de etiqueta para soporte bidi. Para obtener ayuda sobre cómo utilizar los controles de incrustación en situaciones en las que no pueda utilizarse el lenguaje de etiquetas, consulte Uso de controles Unicode para texto bidi.

Otros caracteres Unicode son correctos

Esta no es una lista completa. Su mera intención es brindar algunos ejemplos de caracteres Unicode válidos para su uso adicional al lenguaje de etiquetas a fin de brindar información sobre el texto.

Nombres/descripción	Breve comentario
Varios	espacio sin división, guión corto, combinación de unión de grafema, guión sin división, unión de palabra, etc.
Uniones con ancho cero (ZWJ y ZWNJ)	por ejemplo, necesarias para persa
Marcas direccionales implícitas (LRM y RLM)
Marcas extendidas	característica común en los sistemas de escritura árabe y sirio
Selectores de variación	por ejemplo, necesarios para mongol
Caracteres de descripción ideográfica	indica la composición de los ideogramas

La adecuación de los "caracteres de compatibilidad" varía

Esto es tomado de Unicode en XML y otros lenguajes de etiquetas:

La Norma Unicode brinda mapeos de compatibilidad para una cierta cantidad de caracteres. Los mapeos de compatibilidad indican una relación con otro carácter, pero la naturaleza exacta de la relación varía. En algunos casos, la relación significa "está basado en", en otros casos, denota una propiedad. Cuando se etiqueta texto común, quizá tenga sentido mapear algunos de estos caracteres a sus equivalentes de compatibilidad y lenguaje de etiquetas apropiado. Es importante entender la naturaleza de las distinciones entre caracteres y sus equivalentes de compatibilidad, y el contexto en el cual dichas distinciones importan. Nunca es recomendable aplicar mapeos de compatibilidad de manera indiscriminada.

La siguiente tabla brinda una lista parcial de ejemplos.

Nombres/descripción	Ejemplos	Veredicto
Letras y dígitos encerrados en círculos utilizados para enumerar marcadores de ítems	① ② ③ Ⓐ Ⓑ Ⓒ ㊂㊃㊄㊓㊔㊕㋝㋞㋟	OK
Números entre paréntesis o con viñetas utilizados como marcadores de ítems de lista	⑴ ⑵ ⑶	utilizar el estilo de marcador de ítem de lista
Formas de presentación árabe	ﻉ ﻊ ﻋ ﻌ	normalizar
Caracteres de ancho medio y ancho completo	ﾔﾕﾖﾗａｂｃｄ	OK
Caracteres en superíndice y subíndice	¹ ² ³ ₁ ₂ ₃	utilizar lenguaje de etiqueta <sup> o <sub>

¿Caracteres o lenguaje de etiquetas?

Pregunta

Respuesta

Algunos caracteres de Unicode no son apropiados para su uso con lenguajes de etiquetas

Otros caracteres Unicode son correctos

La adecuación de los "caracteres de compatibilidad" varía

Lecturas complementarias