Пропущенные символы и глифы

Описание проблемы

Веб технология базируется на таком наборе символов Unicode (смотрите Модель Символа). Unicode содержит огромное количество символов, охватывающих широкий спектр скриптов и языков. Однако, в некоторых случаях кое-что может отсутствовать:

  1. Символ не существует. Предлагаемые решения включают в себя кодирование символа, разметка для отдельных символов, та Закрытое использование Codepoints.
  2. Символ существует, но вы хотите выбрать конкретный вариант глифа.
  3. Символ существует, но глиф для его отображения не доступен. Это может быть решено с помощью таких технологий, как Веб шрифты и SVG шрифты.
  4. Символ существует в Unicode/ISO 10646, но не в кодировке символов, используемой для документа. В этом случае используйте Numeric Character References (числовые ссылки) (NCRs, например: 噸).
  5. Символ существует в Unicode/ISO 10646, но вы непосредственно хотите использовать для него имя, а не код. Вы можете использовать именованные множества указанные в DTD (например é в (X)HTML). Было предложенное такое решение, как xmlchar, которое использует элемент на символ и XSLT, чтобы конвертировать их.

Пункт 1 и 2 часто называют термином 'иероглифная проблема'.

Варианты использования

Иероглифы Восточной Азии (смотрите также иероглифы), математические символы, специальные лигатуры,...

Выбор Вариантов Глифов

Часто это важно, чтобы отдельный иероглиф отображался для определенного символа. Стилизация с использованием CSS или XSL может позаботиться о размере, стиле шрифта, а также некоторые другие свойства. Но иногда, существует потребность в более специфических вариантах глифов. Есть различные предложения, чтобы это сделать:

Селекторы вариантов глифа в Unicode

Разметка для Отдельных Знаков и Символов

Идея заключается в определении специального элемента с атрибутами, которые предоставляют или указывают на информацию, необходимую для обработки или предоставления символа. Это приводит к крайне локализованным, и поэтому чрезвычайно гибким и устойчивым решением. Фактическая разметка может выглядеть очень похожей на ту, что используется для выбора вариантов глифа, основное отличие состоит в том, что нет содержания символа, который служит резервом (в некоторых случаях элемент контент может быть примитивным резервом таким, как <html:img>, или используется codepoint (точка кода) закрытого использования).

Примеры, которые определяют разметку для отдельных символов:

Есть ли необходимость в общем элементе или атрибуте, который может широко использоваться? Помогает ли определение общего типа anchestor для таких элементов? Также необходимо описывать свойства символа. Смотрите например, проект CHISE, использующий тематические карты.

Кодировка Символов

Есть возможность представить предложения для кодирования некоторых символов в Технический Комитет Unicode и ISO/IEC SC2 WG2. Это требует тщательной подготовки и занимает много времени, но во многих случаях, это правильный поступок. С другой стороны, некоторые вещи, которые воспринимаются как символы не пригодны для кодирования, или, возможно, символ уже закодирован, но вы хотите особый вариант глифа.

Закрытое использование Codepoints (точек кода)

Unicode/ISO 10646 резервирует Область Закрытого Использования в BMP (U+E000-U+F8FF), а также 15 и 16 грани для закрытого использования. Это означает, что эти codepoints (точки кода) навсегда останутся неопределенными, но могут быть использованы любыми двумя сторонами с предварительного согласия.

Основная проблема с закрытым использованием мест кода - то, что должно быть понимание того, для чего используются эти местам кода. Но частные соглашения имеют малый вес в Интернете. Различные предложения были сделаны, чтобы связать дополнительную информацию с типом документа (DTD/XML Схема), с документом, или с какой то частью документа.

Однако во всех случаях редактировать и обрабатывать документы с такой информацией станет очень сложно. Кроме того, информация о символах сохранится только если все операции, которые обрабатывают ее правильно сохранят связанную с ними информацию. Потому что пропущенные символы - не очень частая проблема, вполне необоснованным является то, что, например каждый скрипт Perl, что имеет дело с XML будет правильно работать. Использование разметки для отдельных недостающих символов является гораздо более стабильным.

Иероглифы

Иероглифы (外字, иностранные/посторонние символы) - термин, часто используется в Японии для обозначения как незакодованих символов так и пропущенных вариантов глифов.

История

Обсуждение на 12-ой Международной Unicode Конференции в Токио, Япония, в Апреле 1998: Изучение Потенциалов Веб-технологий для Обработки Редких Иероглифов и Вариантов Иероглифов.