Introdución ás codificacións e ós conxuntos de caracteres

Esta páxina ofrece orientación ós principiantes na internacionalización da Web, que non saben por onde comezar. O obxectivo é ofrecerlles unha presentación sinxela do material do sitio.

You can find a selection of more detailed articles using the links to the right. Once you get some ideas from this page, you will probably just use Learn to internationalize, or the site search.

De que trata?

Un conxunto de caracteres é un grupo de letras e símbolos empregados nun sistema de escritura. Por exemplo, o conxunto de caracteres ASCII inclúe letras e símbolos para o texto en inglés. O ISO-8859-6 inclúe letras e símbolos necesarios para moitas linguas baseados no sistema de escritura árabe, mentres que o conxunto de caracteres Unicode inclúe caracteres para a maioría das linguas e dos sistemas de escritura vivos do mundo.

Os caracteres dun conxunto ocupan un ou máis bytes na computadora. Cada byte ou secuencia de bytes representa un determinado carácter. Unha codificación de caracteres é a chave que converte un determinado byte ou unha determinada secuencia de bytes nos caracteres específicos que a fonte representa como texto.

Existen moitas codificacións de caracteres distintas. De aplicar a codificación incorrecta ós bytes na memoria, o resultado será un texto ilexible. Daquela, se queres que as persoas lean o contido, é importante etiquetar correctamente a codificación de caracteres empregada.

Máis información...

O apartado Codificacións de caracteres para principiantes explica algúns conceptos básicos sobre as codificacións de caracteres e por que se lles debe prestar atención.

No apartado Definicións fundamentais ofrécese información sobre Unicode, conxunto de caracteres, conxunto de caracteres codificados, codificacións de caracteres, conxunto de caracteres do documento e escapes de caracteres.

Selección dunha codificación

Todo profesional que desenvolve contidos, sexa como autor ou como programador, debe decidir qué codificación de caracteres vai usar. Na actualidade recoméndase o uso de UTF-8 en grande medida, aínda que é probable que se teñan que considerar algúns puntos antes de usalo.

 

 

Máis información...

Autores de HTML & CSS

Desenvolvedores de especificacións

Configuración do servidor

Declaración e aplicación dunha codificación

Unha vez decidida a codificación que se vai empregar, o desenvolvedor ou programador deberase asegurar de que estea declarada correctamente.

Nunha tecnoloxía como a XHTML, as declaracións das codificacións non sempre son sinxelas; é preciso comprender os modos "estándar" versus "quirks" e o impacto da declaración de XML.

Do mesmo xeito o desenvolvedor deberase asegurar de gardar os datos na codificación seleccionada, non só de etiquetalos.

Os desenvolvedores de contido e os administradores de sitios Web débense asegurar tamén de que o servidor envíe contido coas declaracións das codificacións de caracteres correctas, dado que as configuracións do servidor poden invalidar as declaracións que contén o documento.

Escapes

Os escapes son unha forma de representar os caracteres usando nada máis ca texto ASCII. Ofrecen unha forma de representar caracteres que non se atopan dispoñibles na codificación de caracteres que se está a utilizar ou unha forma de evitar un uso dos caracteres por outras razóns (por exemplo, debido a que pode xerar conflito coa sintaxe). Deberase especificar cando e como deben ser usados eses escapes.

 

 

Máis información...

Autores de HTML e CSS

Autores de SVG

Autores de XML

Desenvolvedores de especificacións

Enderezos Web

Actualmente os enderezos Web tamén poden incluír caracteres diferentes de ASCII. O usuario non ten máis que facer clic na ligazón adecuada cando introduce o texto tal como o ve; a tarefa máis difícil tocaralle ó axente de usuario, aínda que pode que sexa de interese saber como funciona isto.

Os desenvolvedores deben deseñar as súas especificacións de tal xeito que se poidan usar enderezos Web con caracteres distintos de ASCII.

Learn more...

Autores de HTML e CSS