Веб технологія базується на такому наборі символів Unicode/ISO 10646 (дивіться Модель Символа). Unicode містить величезну кількість символів, що охоплюють широкий спектр скриптів і мов. Проте, в деяких випадках дещо може бути відсутнє:
Пункт 1 і 2 часто називають терміном 'ієрогліфна проблема'.
Ієрогліфи Східної Азії (дивіться також ієрогліфи), математичні символи, спеціальні лігатури,...
Часто це важливо, щоб окремий ієрогліф відображався для певного символу. Стилізація з використанням CSS або XSL може подбати про розмір, стиль шрифту, а також деякі інші властивості. Але іноді, існує потреба у більш специфічних варіантах гліфів. Є різні пропозиції, щоб це зробити:
<ch>
елемент посилається на файл зображення, що містить зображення гліфа. Атрибути використовуються для точного позиціонування. Зміст
елементу - це сам символ, який може служити в якості запасного варіанту.Селектори варіантів гліфа в Unicode
Ідея полягає у визначенні спеціального елемента з атрибутами, що надають або вказують на інформацію, необхідну для обробки або надання символа. Це призводить до вкрай локалізованим, і тому надзвичайно гнучким і стійким рішенням. Фактична розмітка може виглядати дуже схожою на ту, що використовується для вибору варіантів гліфа, основна відмінність полягає в тому, що немає змісту символа, який служить резервом (у деяких випадках елемент контент може бути примітивним резервом таким, як <html:img>, або використовується codepoint (місце коду) закритого використання).
Приклади, які визначають розмітку для окремих символів:
<altglyph>
забезпечує детальний контроль над гліфами, які використовувалися, зокрема,
для надання символьних даних.<mglyph>
має атрибут alt
для
резервного тексту, атрибут fontfamily, щоб вказати шрифт, і атрибут index, щоб вказати положення гліфу в шрифті.Чи є необхідність в загальному елементі чи атрибуті, який може широко використовуватися? Чи допомагає визначення загального типу anchestor для таких елементів? Також необхідно описувати властивості символа. Дивіться наприклад, проект CHISE, який використовує тематичні карти.
Є можливість представити пропозиції для кодування деяких символів у Технічний Комітет Unicode та ISO/IEC SC2 WG2. Це вимагає ретельної підготовки і займає багато часу, але в багатьох випадках, це правильний вчинок. З іншого боку, деякі речі, що сприймаються як символи не придатні для кодування, або, можливо, символ вже закодований, але ви хочете особливий варіант гліфа.
Unicode/ISO 10646 резервує Область Закритого Використання в BMP (U+E000-U+F8FF) і 15 та 16 грані для закритого використання. Це означає, що ці codepoints (місця коду) назавжди залишаться невизначеним, але можуть бути використаними будь-якими двома сторонами з попередньої згоди.
Основна проблема з закритим використанням місць коду - те, що повинно бути розуміння того, для чого використовуються ці місцям коду. Але приватні угоди мають малу вагу в Інтернеті. Різні пропозиції були зроблені, щоб зв'язати додаткову інформацію з типом документу (DTD/XML Схема), з документом, або з якоюсь частиною документа.
Однак у всіх випадках редагувати та обробляти документи з такою інформацією стане дуже складно. Крім того, інформація про символи збережеться тільки тоді, якщо всі операції, які обробляють її правильно збережуть пов'язану з ними інформацію. Тому що пропущені символи - не дуже часта проблема, цілком необгрунтованим є те, що, наприклад кожен скрипт Perl, що має справу з XML буде робити правильно. Використання розмітки для окремих відсутніх символів є набагато більш стабільним.
Ієрогліфи (外字, іноземні/сторонні символи) - термін, що часто використовується в Японії для позначення як незакодованих символів так і пропущених варіантів гліфів.
Обговорення на 12-ій Міжнародній Unicode Конференції в Токіо, Японія, в Квітні 1998: Вивчення Потенціалів Веб-технологій для Обробки Рідкісних Ієрогліфів і Варіантів Ієрогліфів.