A tecla de acesso 'n' salta para outro local na navegação da página. Saltar para o início do conteúdo.

Este documento é uma tradução. Se ocorrerem discrepâncias ou erros, o original em inglês mais recente terá precedência. Os direitos autorais originais pertencem ao W3C, como indicado no final da página.

Tradutor: Maurício Samy Silva, CSS para Web Design

s_gotoW3cHome Internacionalização
 

Codificação de caracteres

Público alvo: qualquer um interessado em consultar um sumário rápido sobre codificação de caracteres em HTML e XML. Para obter informações mais detalhadas siga os links indicados no título Leitura complementar.

O conjunto de caracteres do documento

O conjunto de caracteres para documentos XML e HTML 4.0 é Unicode (aka ISO 10646). Isto significa que navegadores HTML e processadores XML comportam-se por padrão (internamente) com uso da codificação Unicode. Contudo, isto não significa que documentos devam ser transmitidos com a codificação Unicode. Desde que agentes de usuário e servidores estejam em concordância, pode ser usada qualquer codificação que possa ser convertida para Unicode. Mais detalhes em document character set.

Declarando a codificação

É muito importante que a codificação de caracteres para qualquer documento XML ou (X)HTML seja claramente indicada, de modo a que os dispositivos do cliente possam facilmente mapear a codificação para Unicode. Esta indicação poderá ser feita das seguintes maneiras:

Para uma discussão sobre qual a maneira mais apropriada para um documento (X)HTML consulte um tutorial Character sets & encodings in XHTML, HTML and CSS.

Os exemplos acima mostraram declarações para codificação de conteúdos em UTF-8. Esta parece ser a melhor escolha para a maioria dos propósitos dos documentos, contudo não é a única possibilidade.

Se você não for usar UTF-8 deverá substituir o texto utf-8 nos exemplos mostrados acima pelo nome da codificação que você pretende usar. Para informações sobre os nomes das codificações consulte a lista dos nomes de codificação de caracteres registrados pelo IANA. Na prática algumas poucas codificações são preferidas, tais como: ISO-8859-1 (Latin-1), US-ASCII, UTF-16, e outras constantes da série ISO-8859, iso-2022-jp, euc-kr, e assim por diante.

Assegurando o funcionamento da declaração

É muito importante não só usar a declaração de codificação no HTTP ou conteúdo, mas também:

Para maiores informações a respeito siga os links indicados em Changing (X)HTML page encoding to UTF-8. Embora a documentação tenha sido escrita considerando as UTF-8, ela aplica-se a qualquer codificação que você pretenda usar.

A propósito

Valores para os atributos de codificação podem ser encontrados em IANA registry. Notar que estes são chamados de charset, embora na realidade se refiram à codificação e não ao conjunto de caracteres.

Se você quiser uma visão mais aprofundada deste assunto, leia um artigo de Dan Connolly ("Character Set" Considered Harmful) e a réplica de Glenn Adams (Character Set Terminology, SC2 vs. SC18 vs. Internet Standards).

Nota histórica: Rick Jellife propõe o uso de SPREAD entities das ERCS.

Dê-nos a sua opinião (em inglês).

Subscreva uma alimentação RSS.

Novos recursos

Notícias na página principal

Twitter (Notícias na página principal)

‎@webi18n

Leitura complementar

Documentação introdutória:

Referências para especificações:

Outros links:

Autor: Bert Bos, W3C. Modificado por: Martin J. Dürst, W3C; Richard Ishida, W3C. Tradutor: Maurício Samy Silva, CSS para Web Design.

XHTML 1.0 válida!
CSS válido!
Codificado em UTF-8!

Traduzido de conteúdo em inglês datado de 2006-07-20. Última versão traduzida modificada 2011-01-26 20:10 GMT

Para obter o histórico de alterações do documento, faça uma busca por article-O-charset no blog da i18n.