एचटीएमएल कैरेक्टर सेट
HTML पृष्ठ को सही ढंग से प्रदर्शित करने के लिए, ब्राउज़र को पता होना चाहिए कि किस वर्ण सेट (एन्कोडिंग) का उपयोग करना है:
उदाहरण
<meta charset="UTF-8">
एचटीएमएल कैरेक्टर सेट
HTML5 विनिर्देश वेब डेवलपर्स को UTF-8 वर्ण सेट का उपयोग करने के लिए प्रोत्साहित करता है!
यह हमेशा से ऐसा मामला नही था। प्रारंभिक वेब के लिए वर्ण एन्कोडिंग ASCII था।
बाद में, HTML 2.0 से HTML 4.01 तक, ISO-8859-1 को मानक वर्ण सेट के रूप में माना गया।
एक्सएमएल और एचटीएमएल 5 के साथ, यूटीएफ -8 आखिरकार आ गया और कई वर्ण एन्कोडिंग समस्याओं को हल किया।
शुरुआत में: ASCII
कंप्यूटर डेटा को इलेक्ट्रॉनिक्स में बाइनरी कोड (01000101) के रूप में संग्रहीत किया जाता है।
पाठ के भंडारण को मानकीकृत करने के लिए, अमेरिकन स्टैंडर्ड कोड फॉर इंफॉर्मेशन इंटरचेंज (ASCII) बनाया गया था। इसने प्रत्येक संग्रहणीय वर्ण के लिए 0-9, अपर और लोअर केस वर्णमाला (az, AZ), और विशेष वर्णों जैसे ! $ + - ( ) @ < > , .
चूंकि एएससीआईआई ने चरित्र के लिए 7 बिट्स का इस्तेमाल किया था, यह केवल 128 अलग-अलग वर्णों का प्रतिनिधित्व कर सकता था।
एएससीआईआई के साथ सबसे बड़ी कमजोरी यह थी कि इसमें गैर अंग्रेजी अक्षरों को शामिल नहीं किया गया था।
एएससीआईआई आज भी उपयोग में है, खासकर बड़े मेनफ्रेम कंप्यूटर सिस्टम में।
करीब से देखने के लिए, कृपया हमारे पूर्ण ASCII संदर्भ का अध्ययन करें ।
विंडोज़ में: विंडोज़-1252
Windows-1252, Windows 95 तक, Windows में डिफ़ॉल्ट वर्ण सेट था।
यह अतिरिक्त अंतर्राष्ट्रीय वर्णों के साथ ASCII का विस्तार है।
यह 256 विभिन्न वर्णों का प्रतिनिधित्व करने के लिए एक पूर्ण बाइट (8-बिट्स) का उपयोग करता है।
चूंकि विंडोज़-1252 विंडोज़ में डिफ़ॉल्ट रहा है, यह सभी ब्राउज़रों द्वारा समर्थित है।
करीब से देखने के लिए, कृपया अध्ययन करें: पूर्ण विंडोज-1252 संदर्भ ।
एचटीएमएल 4 में: आईएसओ-8859-1
HTML 4 में सबसे अधिक उपयोग किया जाने वाला वर्ण सेट ISO-8859-1 था।
ISO-8859-1 ASCII का एक विस्तार है, जिसमें अतिरिक्त अंतर्राष्ट्रीय वर्ण हैं।
उदाहरण
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">
HTML 4 में, ISO-8859-1 से भिन्न वर्ण सेट को <meta> टैग में निर्दिष्ट किया जा सकता है:
उदाहरण
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
सभी HTML 4 प्रोसेसर UTF-8 को भी सपोर्ट करते हैं:
उदाहरण
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">
जब कोई ब्राउज़र ISO-8859-1 का पता लगाता है तो वह सामान्य रूप से Windows-1252 पर डिफ़ॉल्ट हो जाता है, क्योंकि Windows-1252 में 32 और अंतर्राष्ट्रीय वर्ण होते हैं।
करीब से देखने के लिए, कृपया अध्ययन करें: संपूर्ण ISO-8859-1 संदर्भ
HTML5 में: यूनिकोड UTF-8
HTML5 विनिर्देश वेब डेवलपर्स को UTF-8 वर्ण सेट का उपयोग करने के लिए प्रोत्साहित करता है।
उदाहरण
<meta charset="UTF-8">
UTF-8 से भिन्न वर्ण-सेट को <meta> टैग में निर्दिष्ट किया जा सकता है:
उदाहरण
<meta charset="ISO-8859-1">
यूनिकोड कंसोर्टियम ने UTF-8 और UTF-16 मानकों को विकसित किया, क्योंकि ISO-8859 वर्ण-सेट सीमित हैं, और एक बहुभाषी वातावरण के अनुकूल नहीं हैं।
यूनिकोड मानक दुनिया के सभी पात्रों, विराम चिह्नों और प्रतीकों को (लगभग) कवर करता है।
सभी HTML5 और XML प्रोसेसर UTF-8, UTF-16, Windows-1252 और ISO-8859 को सपोर्ट करते हैं।
करीब से देखने के लिए, कृपया अध्ययन करें: पूर्ण यूनिकोड संदर्भ ।