この文書は他の言語やスクリプトによる例を含んでいるかもしれません。
ページ内のどこにいても、アクセスキー "n" を使えば文書内のナビゲーションリンクにジャンプできます。ここでは以下のいずれかを行なうことができます:
本文書は http://www.w3.org/ International/
O-charset.en.html を翻訳したものです。
本文書には翻訳上の誤りが含まれる可能性があります。正式な版は上記の英語版です。
原著作権は下記の通り W3C に帰属します。
XML および HTML 4.0 の文書文字集合は Unicode (別名 ISO 10646) です。 これは、HTML ブラウザや XML プロセッサは、(たとえ実際には違っても) 内部的に Unicode を使っているかのように振舞うべきということです。しかし、これは文書は Unicode として常に送信されねばならない、ということではありません。 クライアントとサーバ間で符号化方式の合意がある限り、 Unicode に変換可能であればどのような符号化でも使うことができます。
どのような XML あるいは (X)HTML 文書でも、文字符号化が明確にラベル付けされていることは極めて重要です。これは以下のような方法で行なうことができます:
Content-Type: text/html; charset=EUC-JP
<?xml version="1.0" encoding="iso-8859-1" ?>
<head> 内で <meta>
タグを使います。 例:
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" >
XHTML の場合、最後にスラッシュが必要です:
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" />
この情報により、クライアントはこれらの符号化を Unicode に容易にマッピングできます。 実際には、以下のようないくつかの符号化がよく使われるでしょう:
UTF-8、ISO-8859-1
(Latin-1)、US-ASCII、UTF-16、ISO-8859 シリーズの他の符号化、ISO-2022-JP, EUC-KR、など
用語に関してさらに詳しく知りたければ、Dan Connolly による ("Character Set" Considered Harmful) という記事、およびそれに対する Glenn Adams の反応 (Character Set Terminology, SC2 vs. SC18 vs. Internet Standards) が論点を解説するのに役立つでしょう。
歴史的な覚書: Rick Jellife は ERCS の SPREAD 実体を使うことを提案しました。
2004年4月20日に更新された英語版に基づく翻訳; 日本語版の最終更新: 2004-07-30 11:16 GMT
For a summary of significant changes, search for o-charset in the change log.
Copyright © 2004 W3C® (MIT, ERCIM, Keio), All Rights Reserved. W3C liability, trademark, document use and software licensing rules apply. Your interactions with this site are in accordance with our public and Member privacy statements.