Символи або розмітка?

Питання

Є ряд символів Unicode схожих на керуючі, деякі з яких виконують таку ж роль, як розмітка. Які з них я повинен використовувати, і які я повиннен уникати?

Відповідь

Відповідь залежить від того, які символи розглядаються. Більш детальну інформацію ви повинні прочитати в Примітці W3C і Технічному Звіті Unicode Unicode в XML та Інших Мовах Розмітки. Ця стаття підсумовуватиме частину цієї інформації.

Деякі символи Unicode не підходять для використання з розміткою

У наступній таблиці перераховані символи Unicode, які не повинні використовуватися в контексті розмітки, відповідно до Unicode в XML та Інших Мовах Розмітки. Ви повинні використовувати замість розмітки.

Назви / Опис Коротке Пояснення
Розділення рядків і параграфів використовуйте <br>, <p>, або еквівалент
Вкладені керуючі BIDI (LRE, RLE, LRO, RLO, PDF) Не рекомендуються, тем де є розмітка.
Включити/блокувати Симетричний обмін Застаріле в Unicode
Включити/блокувати формування Арабської форми Застаріле в Unicode
Включити/блокувати форми Національної цифри Застаріле в Unicode
Міжрядкові символи анотації Використовуйте розмітку ruby
Byte order mark / ZWNBSP Використовуйте тільки як byte order mark. Використовуйте Поєднувач Слова U+2060 замість U+FEFF як ZWNBSP
Символи заміни об'єкта Використовуйте розмітку, наприклад, HTML <object> або HTML <img>
Видимість для Музичного Запису Використовуйте відповідну мову розмітки
Місця коду Тегу Мова Використовуйте lang і/або xml:lang

Вкладені керуючі двонаправленого тексту, зазвичай, часто призводять до плутанини. Є декілька місць, де вони повинні використовуватися, щоб створити правильно упорядкований двонаправлений текст на мовах, які використовують скрипти з вирівнюванням тексту справа наліво, таких як арабська, іврит, тана і т.п. Це місця де елемент не дозволяє вбудовану розмітку, такі, як елемент title. Там де розмітка доступна, все-таки, ви повинні її використовувати. Для отримання додаткової інформації про це дивіться Unicode керуючі в порівнянні з розміткою для підтримки bidi. Для керівництва про те, як використовувати вкладені керуючі у ситуаціях, коли не можна використовувати розмітку, дивіться Використання Unicode керуючих для bidi тексту.

Інші підходящі символи Unicode

Це не вичерпний перелік. Це лише для того, щоб навести кілька прикладів із символів Unicode, які можна використовувати в додаток до розмітки щоб надати інформацію про текст.

Назви / Опис Коротке Пояснення
Різні Пробіл, М'який Дефіс, Поєднувач Графеми, Нерозривний Дефіс, Поєднувач Слова, і т.д.
Поєднувачі Нульової ширини (ZWJ та ZWNJ) необхідні для Перської мови
Неявні знаки спрямованості (LRM та RLM)
Знаки каскадування Спільна риса в арабському та сірійському скриптах
Селектори Зміни необхідні для Монгольської мови
Символи Опису Ієрогліфів вказує склад ієрогліфів

'Сумісність символів' змінюється в залежності від їх доцільності

Це взято з Unicode в XML та Інших Мовах Розмітки:

Стандарт Unicode забезпечує сумісність відображення для групи символів. Сумісність відображення вказує на зв'язок з іншим символом, але точний характер зв'язку змінюється. У деяких випадках зв'язок означає "оснований на", в деяких інших випадках він позначає власність. Коли звичайний текст розмічений, то може мати сенс відобразити деякі з цих символів у їх еквівалентах сумісності та підходящій розмітці. Важливо зрозуміти природу відмінностей між символами та їх еквівалентами сумісності та контекст в якому ці відмінності мають значення. Не доцільно застосовувати сумісність відображення без розбору.

Наступна таблиця дає неповний перелік прикладів.

Назви / Опис Приклади Судження
Поміщені в коло букви і цифри, що використовуються для маркерів списку ① ② ③ Ⓐ Ⓑ Ⓒ ㊂ ㊃ ㊄ ㊓ ㊔ ㊕ ㋝ ㋞ ㋟ добре
Номер в дужках або пунктирний номер, який використовується в якості маркера списку ⑴ ⑵ ⑶ використовуйте стиль маркера списку
Арабські Презентаційні форми ﻉ ﻊ ﻋ ﻌ нормалізуйте
Символи напівширини і повної ширини ヤ ユ ヨ ラ a b c d добре
Символи верхнього і нижнього індексу ¹ ² ³ ₁ ₂ ₃ використовуйте <sup> або <sub> розмітку