Använd accesskey 'n' för att hoppa till de interna navigationslänkarna i dokumentet. Hoppa till början av innehållet.
Detta dokument är en översättning av ett engelskt orginal. Om det finns tveksamheter eller fel i detta dokument, så är senaste version av det engelska orginalet den auktoritativa versionen. Copyright tillhör W3C, enligt nedan.
Översättare: Olle Olsson, SICS
Avsedd läsarkrets: alla som vill ha en snabb sammanfattning av kritiska aspekter på teckenkodning i HTML och XML. Om du vill veta mer, följ då länkarna i texten eller titta på avsnittet Mer att läsa.
Teckenuppsättningen för dokument i XML och HTML 4.0 är Unicode (även kallad ISO 10646). Detta innebär att HTML-läsare och XML-processorer borde bete sig som om de använder Unicode internt. Men detta betyder inte att dokument måste transporteras i Unicode-kodning. Så länge som klient och server är överens om kodningen så kan de använda vilken kodning som helst som kan översättas till Unicode. Läs mer om dokuments teckenuppsättning.
Det är mycket viktigt att teckenkodningen för ett XML- eller (X)HTML-dokument tydligt anges, så att webbklienter lätt kan översätta dessa till Unicode. Detta kan göras på följande sätt:
Sätt 'charset'-parametern i HTTP:s Content-Type header. Till exempel:
Content-Type: text/html; charset=utf-8För att kunna göra detta måste du ha möjlighet att sätta vissa egenskaper hos webbservern, eller leverera dokumentet med hjälp av scripts (se Att sätta HTTP:s charset-parameter för mer information om detta).
För XML (och XHTML) bör man använda pseudoattributet 'encoding' i XML-deklarationen i början av dokumentet eller text-deklarationen i början av en entitet. Exempel:
<?xml version="1.0" encoding="utf-8" ?> Det finns viktiga saker att tänka på när du levererar XHTML 1.0 som HTML.
För HTML, eller XHTML som levereras som HTML, bör du alltid använda <meta>-taggen i <head>.
Till exempel:
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" >För XHTML måste du ange ett snedstreck vid slutet:
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" />En diskussion om vilken metod som är bäst för vilken typ av (X)HTML-dokument finns i läromedlet Character sets & encodings in XHTML, HTML and CSS.
Exemplen ovan visar deklarationer för UTF-8-kodat innehåll. Det är troligen det bästa kodningsvalet i de flesta sammanhang,
men det är inte det enda alternativet.
Om du inte använder UTF-8, så ska du ersätta texten utf-8 i exemplet ovan med namnet för den kodning som du har valt. Du kan
titta i den fulla listan över namn på teckenkodningar registrerade av IANA (lång). I
praktiken föredras en liten uppsättning kodningar, såsom: ISO-8859-1 (Latin-1), US-ASCII, UTF-16, andra
kodningar i ISO-8859-serien, iso-2022-jp, euc-kr, och så vidare.
Det är viktigt att inte bara använda kodningsdeklarationerna ovan i HTTP eller innehåll, utan även att:
Spara dina data i rätt kodning i det verktyg du använder för att konstruera innehåll.
Försäkra dig om att det inte finns en motsättning mellan vad du deklarerar i dokumentet och hur webbservern automatiskt hanterar det, eftersom vad webbservern säger om dokumentet har större vikt än vad som sägs i dokumentet.
Mer information om dessa frågor kan hittas via länkar i Changing (X)HTML page encoding to UTF-8. Fastän det är skrivet från ett UTF-8-perspektiv, så är det tillämpligt på alla typer av kodningar.
Värden som kodningsattributet kan ha återfinns i IANA-registret. Tänk på att dessa kallas charset-namm, fastän de i praktiken refererar till kodningar, inte till teckenuppsättningar.
Vill du ha mer omfattande information om dessa frågor, titta då i en artikel av Dan Connolly ("Character Set" Considered Harmful) och en reaktion på detta av Glenn Adams (Character Set Terminology, SC2 vs. SC18 vs. Internet Standards).
Historisk anmärkning: Rick Jellife föreslog användning av SPREAD entities från ERCS.
Tala om för oss vad du tycker (på engelska).
Prenumerera på en RSS-kanal.
Twitter (Nyheter på hemsidan)
Översatt från engelskt innehåll skapat/ändrat 2006-07-20. Översättningen senast ändrad 2011-01-26 20:10 GMT
Information om ändringar i orginaldokumentet kan fås genom att söka efter article-O-charset i i18n-bloggen.
Copyright © 31 May, 1996-2011 W3C® (MIT, ERCIM, Keio, Beihang), All Rights Reserved. W3C liability, trademark, document use and software licensing rules apply. Your interactions with this site are in accordance with our public and Member privacy statements.