A tecla de acesso 'n' salta para outro local na navegação da página. Saltar para o início do conteúdo.

Este documento é uma tradução. Se ocorrerem discrepâncias ou erros, o original em inglês mais recente terá precedência. Os direitos autorais originais pertencem ao W3C, como indicado no final da página.

Tradutor: Brazilian Portuguese Translation Team, Trusted Translations, Inc.

s_gotoW3cHome Internacionalização
 

Introdução a conjuntos de caracteres e codificações

Público alvo: qualquer pessoa que seja iniciante em internacionalização e precise de orientação em assuntos relacionados e busque maneiras de conhecer o material no site.

Esta página oferece orientações para os iniciantes em internacionalização que não sabem por onde devem começar. O objetivo é guiá-lo para que você conheça aos poucos alguns dos materiais do site.

Você encontrará uma seleção de artigos mais detalhados nos links à direita. Depois que você obtiver algumas informações nesta página, é provável que use apenas o índice de tópicos, o índice de técnicas, ou o campo de pesquisa do site.

Do que se trata?

Aprenda mais...

Codificações de caracteres para iniciantes explica alguns dos conceitos básicos sobre as codificações de caracteres e porque você deve saber mais sobre o assunto.

Definições essenciais fornece mais informações sobre Unicode, conjuntos de caracteres, conjuntos de caracteres codificados, codificações de caracteres, conjunto de caracteres do documento e escapes de caracteres.

Um conjunto de caracteres é uma variedade de letras e símbolos usados em um sistema de escrita. Por exemplo, o conjunto de caracteres ASCII abrange letras e símbolos para textos em inglês, o ISO-8859-6 abrange letras e símbolos necessários para muitas línguas com base na caligrafia árabe, e o conjunto de caracteres Unicode contém caracteres para a maioria das línguas vivas e scripts do mundo.

Os caracteres em um conjunto são armazenados como um ou mais bytes em um computador. Cada byte ou sequência de bytes representa um determinado caractere. Uma codificação de caracteres é a chave que mapeia um byte em especial ou uma sequência de bytes de caracteres que a fonte transforma em texto.

Há muitas codificações de caracteres diferentes. Se a codificação errada for aplicada aos bytes na memória, o resultado será um texto ilegível. Portanto, é importante classificar corretamente a codificação de caracteres usada para que as pessoas consigam ler o conteúdo de seu site.

Escolha de uma codificação

Todas as pessoas que desenvolvem algum conteúdo, tanto autores quanto programadores, devem decidir qual codificação de caracteres será utilizada. A UTF-8 é uma recomendação popular atualmente, mas ainda há algumas coisas que devem ser consideradas antes de usá-la.

Aprenda mais...

Autores de HTML & CSS
Escolha de uma codificação de caracteres

Desenvolvedores de especificação
Escolha de codificações de caracteres

Configuração de servidor
Escolha de uma codificação de caracteres


Declaração e aplicação de uma codificação

Depois que a codificação a ser usada for escolhida, os desenvolvedores de conteúdo e os programadores devem garantir que ela será declarada da maneira correta.

Com uma tecnologia como a XHTML, as declarações de codificações nem sempre são simples. Elas exigem um conhecimento de modos "padrão" vs. modos quirks, e do impacto da declaração XML.

Você também deve garantir que os seus dados serão salvos na codificação escolhida. Apenas classificá-la não é o suficiente.

Os desenvolvedores de conteúdo e os administradores dos sites também devem garantir que o servidor passará o conteúdo com as declarações corretas de codificação de caracteres, já que as configurações de servidor podem anular as declarações feitas no documento.

Escapes

Os escapes são uma forma de representar um caractere usando apenas texto em ASCII. Eles fornecem uma maneira de representar caracteres que não estão disponíveis na codificação de caracteres que você está usando, ou um modo de evitar o uso do caractere para outras razões (por exemplo, quando eles podem entrar em conflito com a sintaxe). Você deve ser claro sobre quando e como esses escapes devem ser usados.


Endereços de Internet

Atualmente, os endereços de Internet também podem incluir caracteres não-ASCII. O usuário precisa apenas clicar no link apropriado ou digitar o texto como eles o veem. O trabalho pesado é feito pelo agente de usuário, mas talvez você tenha interesse em saber como isto funciona.

Os desenvolvedores de especificação devem criar as suas especificações para que os endereços de Internet não-ASCII possam ser usados.


Autor: Richard Ishida, W3C. Tradutor: Brazilian Portuguese Translation Team, Trusted Translations, Inc..

XHTML 1.0 válida!
CSS válido!
Codificado em UTF-8!

Traduzido de conteúdo em inglês datado de 2009-05-01. Última versão traduzida modificada 2010-04-14 10:12 GMT

Para obter o histórico de alterações do documento, faça uma busca por gs-characters no blog da i18n.