Пропущені символи і гліфи

Опис проблеми

Веб технологія базується на такому наборі символів Unicode/ISO 10646 (дивіться Модель Символа). Unicode містить величезну кількість символів, що охоплюють широкий спектр скриптів і мов. Проте, в деяких випадках дещо може бути відсутнє:

  1. Символ не існує. Пропоновані рішення включають в себе кодування символа, розмітка для окремих символів, та Закрите використання Codepoints.
  2. Символ існує, але ви хочете вибрати конкретний варіант гліфу.
  3. Символ існує, але гліф для його відображення не доступний. Це може бути вирішено за допомогою таких технологій, як Веб шрифти та SVG шрифти.
  4. Символ існує в Unicode/ISO 10646, але не в кодуванні символів, що використовується для документа. У цьому випадку, використовуйте Numeric Character References (числові посилання) (NCRs, наприклад: 噸).
  5. Символ існує в Unicode/ISO 10646, але ви безпосередньо хочете використовувати для нього ім'я, а не код. Ви можете використовувати іменовані множини зазначені у DTD (наприклад é в (X)HTML). Було запропоноване таке інше рішення, як xmlchar, яке використовує елемент на символ і XSLT, щоб конвертувати їх.

Пункт 1 і 2 часто називають терміном 'ієрогліфна проблема'.

Варіанти використання

Ієрогліфи Східної Азії (дивіться також ієрогліфи), математичні символи, спеціальні лігатури,...

Вибір Варіантів Гліфів

Часто це важливо, щоб окремий ієрогліф відображався для певного символу. Стилізація з використанням CSS або XSL може подбати про розмір, стиль шрифту, а також деякі інші властивості. Але іноді, існує потреба у більш специфічних варіантах гліфів. Є різні пропозиції, щоб це зробити:

Селектори варіантів гліфа в Unicode

Розмітка для Окремих Знаків та Символів

Ідея полягає у визначенні спеціального елемента з атрибутами, що надають або вказують на інформацію, необхідну для обробки або надання символа. Це призводить до вкрай локалізованим, і тому надзвичайно гнучким і стійким рішенням. Фактична розмітка може виглядати дуже схожою на ту, що використовується для вибору варіантів гліфа, основна відмінність полягає в тому, що немає змісту символа, який служить резервом (у деяких випадках елемент контент може бути примітивним резервом таким, як <html:img>, або використовується codepoint (місце коду) закритого використання).

Приклади, які визначають розмітку для окремих символів:

Чи є необхідність в загальному елементі чи атрибуті, який може широко використовуватися? Чи допомагає визначення загального типу anchestor для таких елементів? Також необхідно описувати властивості символа. Дивіться наприклад, проект CHISE, який використовує тематичні карти.

Кодування Символів

Є можливість представити пропозиції для кодування деяких символів у Технічний Комітет Unicode та ISO/IEC SC2 WG2. Це вимагає ретельної підготовки і займає багато часу, але в багатьох випадках, це правильний вчинок. З іншого боку, деякі речі, що сприймаються як символи не придатні для кодування, або, можливо, символ вже закодований, але ви хочете особливий варіант гліфа.

Закрите використання Codepoints (місць коду)

Unicode/ISO 10646 резервує Область Закритого Використання в BMP (U+E000-U+F8FF) і 15 та 16 грані для закритого використання. Це означає, що ці codepoints (місця коду) назавжди залишаться невизначеним, але можуть бути використаними будь-якими двома сторонами з попередньої згоди.

Основна проблема з закритим використанням місць коду - те, що повинно бути розуміння того, для чого використовуються ці місцям коду. Але приватні угоди мають малу вагу в Інтернеті. Різні пропозиції були зроблені, щоб зв'язати додаткову інформацію з типом документу (DTD/XML Схема), з документом, або з якоюсь частиною документа.

Однак у всіх випадках редагувати та обробляти документи з такою інформацією стане дуже складно. Крім того, інформація про символи збережеться тільки тоді, якщо всі операції, які обробляють її правильно збережуть пов'язану з ними інформацію. Тому що пропущені символи - не дуже часта проблема, цілком необгрунтованим є те, що, наприклад кожен скрипт Perl, що має справу з XML буде робити правильно. Використання розмітки для окремих відсутніх символів є набагато більш стабільним.

Ієрогліфи

Ієрогліфи (外字, іноземні/сторонні символи) - термін, що часто використовується в Японії для позначення як незакодованих символів так і пропущених варіантів гліфів.

Історія

Обговорення на 12-ій Міжнародній Unicode Конференції в Токіо, Японія, в Квітні 1998: Вивчення Потенціалів Веб-технологій для Обробки Рідкісних Ієрогліфів і Варіантів Ієрогліфів.