Introdução a conjuntos de caracteres e codificações

Esta página oferece orientações para os iniciantes em internacionalização que não sabem por onde devem começar. O objetivo é guiá-lo para que você conheça aos poucos alguns dos materiais do site.

You can find a selection of more detailed articles using the links to the right. Once you get some ideas from this page, you will probably just use Learn to internationalize, or the site search.

Do que se trata?

Um conjunto de caracteres é uma variedade de letras e símbolos usados em um sistema de escrita. Por exemplo, o conjunto de caracteres ASCII abrange letras e símbolos para textos em inglês, o ISO-8859-6 abrange letras e símbolos necessários para muitas línguas com base na caligrafia árabe, e o conjunto de caracteres Unicode contém caracteres para a maioria das línguas vivas e scripts do mundo.

Os caracteres em um conjunto são armazenados como um ou mais bytes em um computador. Cada byte ou sequência de bytes representa um determinado caractere. Uma codificação de caracteres é a chave que mapeia um byte em especial ou uma sequência de bytes de caracteres que a fonte transforma em texto.

Há muitas codificações de caracteres diferentes. Se a codificação errada for aplicada aos bytes na memória, o resultado será um texto ilegível. Portanto, é importante classificar corretamente a codificação de caracteres usada para que as pessoas consigam ler o conteúdo de seu site.

Learn more...

Codificações de caracteres para iniciantesexplica alguns dos conceitos básicos sobre as codificações de caracteres e porque você deve saber mais sobre o assunto.

Definições essenciais fornece mais informações sobre Unicode, conjuntos de caracteres, conjuntos de caracteres codificados, codificações de caracteres, conjunto de caracteres do documento e escapes de caracteres.

Escolha de uma codificação

Todas as pessoas que desenvolvem algum conteúdo, tanto autores quanto programadores, devem decidir qual codificação de caracteres será utilizada. A UTF-8 é uma recomendação popular atualmente, mas ainda há algumas coisas que devem ser consideradas antes de usá-la.

 

 

Aprenda mais...

Autores de HTML & CSS

Desenvolvedores de especificação

Server setup

Escolha de uma codificação de caracteres

Depois que a codificação a ser usada for escolhida, os desenvolvedores de conteúdo e os programadores devem garantir que ela será declarada da maneira correta.

Com uma tecnologia como a XHTML, as declarações de codificações nem sempre são simples. Elas exigem um conhecimento de modos "padrão" vs. modos quirks, e do impacto da declaração XML.

Você também deve garantir que os seus dados serão salvos na codificação escolhida. Apenas classificá-la não é o suficiente.

Os desenvolvedores de conteúdo e os administradores dos sites também devem garantir que o servidor passará o conteúdo com as declarações corretas de codificação de caracteres, já que as configurações de servidor podem anular as declarações feitas no documento.

Escapes

Os escapes são uma forma de representar um caractere usando apenas texto em ASCII. Eles fornecem uma maneira de representar caracteres que não estão disponíveis na codificação de caracteres que você está usando, ou um modo de evitar o uso do caractere para outras razões (por exemplo, quando eles podem entrar em conflito com a sintaxe). Você deve ser claro sobre quando e como esses escapes devem ser usados.

 

 

Endereços de Internet

Atualmente, os endereços de Internet também podem incluir caracteres não-ASCII. O usuário precisa apenas clicar no link apropriado ou digitar o texto como eles o veem. O trabalho pesado é feito pelo agente de usuário, mas talvez você tenha interesse em saber como isto funciona.

Os desenvolvedores de especificação devem criar as suas especificações para que os endereços de Internet não-ASCII possam ser usados.

Aprenda mais...

Autores de HTML & CSS