A tecla de acesso 'n' salta para outro local na navegação da página. Saltar para o início do conteúdo.

Este documento é uma tradução. Se ocorrerem discrepâncias ou erros, o original em inglês mais recente terá precedência. Os direitos autorais originais pertencem à W3C, como indicado abaixo.

Tradutor: Portuguese Translation Team, Trusted Translations, Inc.

s_gotoW3cHome Internacionalização
 

Introdução de conjuntos de caracteres e codificações

Público alvo: qualquer pessoa que seja nova na internacionalização e necessite orientação em tópicos a considerar e formas de obter o material no site.

Esta página fornece alguma orientação para recém-chegados à internacionalização da Web que não sabem onde começar. O objectivo é introduzir-lhe suavemente algum material do site.

Pode encontrar uma selecção de artigos mais detalhados usando as ligações à direita. Depois de obter algumas ideias a partir desta página, irá provavelmente ver apenas o índice do tópico, o índice das técnicas, ou a pesquisa do site.

É sobre o quê?

Saiba mais...

Codificações de caracteres para principiantes explica alguns dos conceitos básicos sobre codificações de caracteres, e porque se deverá preocupar.

Definições essenciaisfornece mais informação sobre Unicode, conjuntos de caracteres, conjuntos de caracteres codificados, codificações de caracteres, o conjunto de caracteres do documento, e as saídas de caracteres.

Um conjunto de caracteres é uma colecção de letras e símbolos usados num sistema de escrita. Por exemplo, o conjunto de caracteres ASCII abrange as letras e símbolos para o texto Inglês, a ISO-8859-6 abrange as letras e símbolos necessários para muitos idiomas baseados na escrita Arábica, e o conjunto de caracteres Unicode contém caracteres para a maior parte das linguagens e escritas vivas no mundo.

Os caracteres num conjunto de caracteres são armazenados como um ou mais bytes num computador. Cada byte ou sequência de bytes representa um determinado caractere. Uma codificação de caracteres é a chave que mapeia um byte ou sequência de bytes em particular para caracteres específicos que a fonte processa como texto.

Existem várias codificações de caracteres diferentes. Se a codificação errada for aplicada aos bytes em memória, o resultado será texto imperceptível. É assim importante, caso as pessoas tencionem ler o seu conteúdo, que se identifique correctamente a codificação de caracteres usada.

Escolha de uma codificação

Toda a gente que desenvolve conteúdos, sejam os programadores ou autores do conteúdo, devem decidir que codificação de caracteres usar. UTF-8 é actualmente uma recomendação popular, mas ainda existem algumas coisas que deverá considerar antes de o utilizar.

Saiba mais...

Autores HTML & CSS
Escolha de uma codificação de caracteres

Criador de especificações
Escolha de codificações de caracteres

Configuração do servidor
Escolha de uma codificação de caracteres


Declaração e aplicação de uma codificação

Uma vez decidida que codificação usar, os criadores e programadores de conteúdo devem certificar-se que é declarada da forma correcta.

Com uma tecnologia como XHTML, as declarações de codificação nem sempre são directas; requerem um entendimento dos 'padrões' vs modos de 'comportamentos',e o impacto da declaração XML.

Deve-se também assegurar que os seus dados são gravados na codificação que escolheu, não basta etiquetá-los.

Os criadores de conteúdo e webmasters poderão também necessitar de se certificar que o servidor fornece o conteúdo com as declarações de codificação de caracteres correctas, pois as definições do servidor podem sobrepor-se às declarações do documento.

Saídas

Saídas são uma forma de representação de um caractere usando apenas texto ASCII. Fornecem uma forma de representação de caracteres que não estão disponíveis na codificação de caracteres que está a usar, ou uma forma de evitar o uso de caracteres por outros motivos (como quando poderão entrar em conflito com a sintaxe). Deverá ser claro no momento e forma de utilização destas saídas.


Endereços Web

Nos dias de hoje os endereços web podem também incluir caracteres não-ASCII. O utilizador não faz mais do que carregar na ligação apropriada ou introduzir o texto como o vê, o trabalho árduo é feito pelo agente do utilizador, mas poderá estar interessado em saber como funciona.

Os criadores de espeficicações deverão desenhar as suas especificações para que endereços web não-ASCII possam ser usados.


Autor: Richard Ishida, W3C. Tradutor: Portuguese Translation Team, Trusted Translations, Inc..

XHTML 1.0 válida!
CSS válido!
Codificado em UTF-8!

Traduzido de conteúdo em inglês datado de 2009-05-01. Última versão traduzida modificada 2010-04-14 10:12 GMT

Para obter o histórico de alterações do documento, procure gs-characters no blog da i18n.