Använd accesskey 'n' för att hoppa till de interna navigationslänkarna i dokumentet. Hoppa till början av innehållet.

Detta dokument är en översättning av ett engelskt orginal. Om det finns tveksamheter eller fel i detta dokument, så är senaste version av det engelska orginalet den auktoritativa versionen. Copyright tillhör W3C, enligt nedan.

Översättare: Olle Olsson, SICS

s_gotoW3cHome Internationalization
 

Dokuments teckenuppsättning

Avsedd läsarkrets: XHTML/HTML coders (using editors or scripting), script developers (PHP, JSP, etc.), CSS coders, XSLT developers, Web project managers, and anyone who wants to understand what the Document Character Set is, and how that relates to encodings used in a document or page.

Frågor

Vad menas med 'dokuments teckenuppsättning' i XML och HTML, och hur hänger det samman med den kodning jag använder i mina dokument?

Svar

För XML och HTML (4.0 eller senare) gäller att dokuments teckenuppsättning eller basteckenuppsättning är Universal Character Set (UCS) som definieras både av standarden ISO/IEC 10646 och av Unicode-standarden, vilka definierar samma koder.

Anm: Av enkelhetsskäl, och enligt normal praxis, så står alla förekomster av "Unicode" i detta dokument för den teckenuppsättning som definieras av både Unicode och ISO/IEC 10646.

Detta betyder att den logiska modell som beskriver hur XML och HTML behandlas beskrivs i termer av Unicode-teckenuppsättningen.

Det betyder dock inte att alla HTML- och XML-dokument måste kodas som Unicode, men det betyder att sådana dokument bara kan innehålla tecken som definieras av Unicode. Lägg märke till att teckenuppsättning och kodning är olika saker - t.ex. kan hela Unicode-repertoaren kodas på fler än ett sätt, bl.a. som UTF-8, UTF-16 och UTF-32. Du kan använda vilken kodning som helst, så länge som den tydligt anges och är en delmängd av Unicode-repertoaren. (Det är ganska osannolikt att man stöter på en kodning som inte är en delmängd av Unicode.)

Å andra sidan är det bra att i största möjliga utsträckning använda Unicode, eftersom det förenklar många typer av problem vad gäller webbinternationalisering, och Unicode har brett stöd av HTML-läsare och fullt stöd av alla XML-processorer.

En viktig effekt av dokumentets teckenuppsättning är att värden av numeriska teckenreferenser (såsom ǵ och ǵ som står för "litet latinskt tecken g med akut accent") tolkas som Unicode-tecken - oavsett vilken tekenkodning du använder för dokumentet. Detta är en vanlig orsak till missuppfattningar av de som inte har skillnaden klart för sig.

Nyttig information

I praktiken kan inte alla Unicode-tecken användas överallt i XML och HTML. T.ex. kan vissa tecken inte användas i elementnamn och vissa kontrolltecken (eng. "control characters") kan inte användas i innehåll. Lägg dock märke till att XML 1.1, jämfört med XML 1.0, tillåter användning av många fler tecken i sådant som elementnamn.

Historisk information

För HTML 2.0 definierades att alla tecken i ett HTML-dokument skall tolkas som ISO 8859-1 (också kallad ISO Latin 1), men samtidigt kungjordes att framtida versioner av HTML kommer att använda en utvidgad mängd, dvs Unicode (eller ISO 10646), vilket betyder att en ofantlig mängd av alla världens tecken kan användas.

Diskussionen om hur man bör använda Unicode på Internet ( RFC 2130, April 1997, och RFC 2070, Jan 1997) hade inte avslutats då HTML 3.2 publicerades (Jan 1997), och därför kunde inkorporerandet av Unicode i HTML ske först i samband med HTML 4.0 (Dec 1997).

Tala om för oss vad du tycker (på engelska).

Prenumerera på en RSS-kanal.

Nya resurser

Nyheter på hemsidan

Twitter (Nyheter på hemsidan)

‎@webi18n

Mer att läsa

Av: Martin Dürst & Richard Ishida, W3C. Översättare: Olle Olsson, SICS.

Valid XHTML 1.0!
Valid CSS!
Kodad i UTF-8!

Översatt från engelskt innehåll skapat/ändrat 2004-06-28. Översättningen senast ändrad 2006-11-02 16:53 GMT

Information om ändringar i orginaldokumentet kan fås genom att söka efter qa-doc-charset i i18n-bloggen.