Håndtering af tegnkodninger i HTML og CSS

Beregnet publikum: HTML / XHTML og CSS indeholder forfattere. Dette materiale er gældende uanset om du opretter dokumenter I et redigeringsprogram, eller ved hjælp af scripting.

Denne vejledning samler og organiserer henvisninger til artikler, der, tilsammen hjælper dig med at forstå, hvordan man håndterer de væsentlige aspekter af tekstforfatningsprogrammer i (X)HTML og CSS i forbindelse med tegn og tegnkodninger.

I en nøddeskal

Dette afsnit er for folk der har travlt og som bare ønsker at kende de vigtigste anbefalinger fra vejledningen. Hvis du ikke forstår noget, eller hvis du ønsker flere detaljer, kan du læse resten af vejledningen.

Gem dine sider som UTF-8, når du kan.

Erklær altid kodningen af dit dokument. Brug HTTP-headeren, hvis du kan. Brug også altid in-dokument erklæringen. Denne tabel fortæller dig, hvordan du gør, afhængigt af hvilket format du er tekstforfatter i. Brug kodningsnavne fra IANA registret.

Brug @charset-reglen for eksterne stilkladder (men ikke CSS i din HTML-side), hvis du ikke har -ASCII indhold, f.eks skrifttypenavne, IDS eller klassenavne osv.

Prøv at undgå at bruge byte-order markeringen i UTF-8, og sikre, at din HTML-kode er gemt i Unicode normaliseringsformular C (NFC).

Undgå at bruge tegnudveje, bortset fra usynlige eller tvetydige tegn. Og brug ikke Unicode kontroltegn, når du kan bruge markup i stedet.

Artiklerne havde til formål at beskrive den nyeste tænkning i forhold til HTML5- specifikationen. Det er vigtigt at bemærke, at HTML5-specifikationen stadig ikke er stabil, så du skal henvende disse oplysninger med omhu.

Væsentlig baggrundsinformation

Hvis du er en nybegynder til dette emne, er der visse fundamentale begreber, du har brug for at forstå, hvilket betyder at du er nødt til at følge forskellige dele af vejledningen. Hvis du er fortrolig med disse begreber, kan du springe over til næste afsnit.

Valg og anvendelse af tegnkodninger

Indholdet er sammensat af en sekvens af tegn. Tegn repræsenterer bogstaver i alfabetet, tegnsætning, osv. Men indholdet er gemt i en computer som en sekvens af bytes, der har numeriske værdier. Undertiden bruges mere end en byte til at repræsentere et enkelt tegn. Ligesom koder, der anvendes i spionage, afhænger måden, hvorpå et sekvens af bytes omdannes til tegn, den tast som blev anvendt til at kode teksten. I denne forbindelse kaldes nøglen et tegnsæt.

Der er mange tegnkodninger at vælge imellem. Denne del af Vejledningen tilbyder enkel rådgivning om hvilken tegnkodning du bør bruge til dit indhold, og hvordan man anvender det.

Valg & anvendelse af tegnkodninger omfatter følgende:

Hvordan man erklærer en tegnkodning

Du bør altid specificere kodningen, der bruges til en HTML-eller XML-side. Hvis du ikke gør det, risikerer du, at karakterer i dit indhold fejlfortolkes. Dette er ikke blot et spørgsmål om menneskelig læsbarhed, i stigende grad er maskiner også nødt til at forstå dine data. Du bør også tjekke, at du ikke angiver forskellige kodninger forskellige steder.

Erklæringer af tegnkodninger i HTML vil give dig hurtige anbefalinger til dem, der bare ønsker at få at vide hvad de skal gøre, og mere detaljerede oplysninger for dem, der har brug for det.

Erklæringer af tegnkodninger i CSS giver information til CSS.

  1. Hurtige anbefalinger
  2. Flere detaljer:

 

Byte-order markeringen (BOM)

Byte-order markeringen, eller BOM, er noget, du vil støde på, når du bruger et Unicode-baseret tegnsæt, såsom UTF-8 og UTF-16. I nogle tilfælde skal du fjerne BOM, og i andre skal du sørge for, at det er der.

Byte-order markeringen (BOM) i HTML omfatter:

Unicode normaliserings formularer

Normalisering er noget, du skal være opmærksom på, hvis du opretter HTML-sider med CSS-stilkladder i UTF-8 (eller enhver anden Unicode-kodning), især hvis du har at gøre med tekst i et script, der bruger accenter eller andre diakritiske tegn.

Normalization in HTML and CSS dækker:

Brug af tegnudveje

Du kan bruge tegnudveje til at repræsentere alle tegn fra Unicode tegnsæt i HTML, XML eller CSS ved kun at bruge ASCII-tegn.

Brug af tegnudveje i markup og CSS indeholder oplysninger om følgende:

Tegn eller markup?

Endelig er der en række kontrol-lignende Unicode-tegn, som opfylder nogle af det samme som markup. Spørgsmålet er, hvilke bør du bruge, og hvilke bør du undgå?

Tegn eller markup? dækker: