Dokumentum karakter beállítás

Kérdés

Mi az a 'Dokumentum Karakter Beállítás' az XML-nél és HTML-nél és hogyan kapcsolódik a karakterkódoláshoz amit a dokumentumjaimnál használok?

Válasz

Az egyszerűség kedvéért és az általános gyakorlat miatt, amikor az Unicode-ot említjük ebben a szövegben, akkor az Unicode és az ISO/IEC 10646 által meghatározott karakter beállításra hivatkozunk.

A dokumentum karakter beállítás vagy az alap karakter beállítás az XML és HTML-ben (a 4.0-ás verziótól) másnéven az Univerzális Karakter Beállítás (UCS - Universal Character Set angolul), ami az ISO/IEC 10646 és az Unicode szabványok által van meghatározva. Ezek minden kódban azonosak.

Ez azt jelenti hogy az Unicode karakter beállítás kikötéseiben van leírva a logikai minta, hogy az XML és HTML hogyan kerül feldolgozásra.

Ez nem azt jelenti, hogy az összes HTML és XML dokumentumot Unicode-ba kell kódolni, de ezek a dokumentumok csak az Unicode által meghatározott karaktereket tartalmazhatnak. Jegyezzük meg, hogy a karakter beállítása és a karakterkódolás beállítása két különböző dolog - például, egy teljesen Unicode repertoár többféleképpen lehet kódolva, pl. UTF-8, UTF-16 és UTF-32. Bármilyen karakterkódolást használhatunk a dokumentumunkban mindaddig amíg az helyesen van deklarálva és a karakterek az Unicode repertoárjának a részét képviselik.

Másrészről jó ötlet Unicode kódolást használni ahol csak lehet, amióta sok szempontból leegyszerűsíti a webes internacionalizációt és sok HTML böngésző illetve XML feldolgozó támogatja.

A dokumentum karakter beállítás egyik fontos következménye, hogy a numerikus karakter hivatkozások (mint amilyen például a latin kisbetű vesszővel: ǵ és ǵ) Unicode karakterként vannak értelmezve - nem számít milyen kódolást használunk a dokumentumunkban. Ez egy gyakori hibaforrás azok között, akik nincsenek tisztában a különbséggel.

Mellesleg

Gyakorlatban nem minden Unicode karakter használható bárhol az XML-ben és HTML-ben. Például számos karakter ki van zárva olyan dolgokból mint a 'tag' nevei. Mindazonáltal nem árt tudni, hogy az XML 1.1 sokkal több karaktert enged használni (például 'tag'-ek nevei) mint az XML 1.0.

Történelmi információ

A HTML 2.0 meghatározta hogy minden karakter egy HTML dokumentumban az az ISO 8859-1-re (másnéven az ISO Latin 1-re) vonatkozóan legyen értelmezve, de azt is kijelentette, hogy minden jövőbeni HTML verzió annak egy bővített változatá fogja majd használni, mégpedig az Unicode-ot (vagy ISO 10646-ot), ami azt jelenti hogy a világ karaktereinek óriási mennyisége elérhető.

A viták az Unicode megfelelő használatáról az Interneten (RFC 2130, 1997. Április és RFC 2070,1997. Január) még nem értek véget amikor a HTML 3.2 kijött (1997. Január), így az Unicode HTML-be való belehelyezésére várni kellett a HTML 4.0-ig (1997. December).