HTML यूनिकोड (UTF-8) संदर्भ
यूनिकोड कंसोर्टियम
यूनिकोड कंसोर्टियम यूनिकोड मानक विकसित करता है। उनका लक्ष्य मौजूदा कैरेक्टर सेट को उसके मानक यूनिकोड ट्रांसफॉर्मेशन फॉर्मेट (UTF) से बदलना है।
यूनिकोड मानक सफल हो गया है और एचटीएमएल, एक्सएमएल, जावा, जावास्क्रिप्ट, ई-मेल, एएसपी, पीएचपी, आदि में लागू किया गया है। यूनिकोड मानक कई ऑपरेटिंग सिस्टम और सभी आधुनिक ब्राउज़रों में भी समर्थित है।
यूनिकोड कंसोर्टियम ISO, W3C और ECMA जैसे अग्रणी मानक विकास संगठनों के साथ सहयोग करता है।
यूनिकोड कैरेक्टर सेट
यूनिकोड को विभिन्न वर्ण सेटों द्वारा कार्यान्वित किया जा सकता है। यूटीएफ -8 और यूटीएफ -16 सबसे अधिक इस्तेमाल किए जाने वाले एन्कोडिंग हैं:
Character-set | Description |
---|---|
UTF-8 | A character in UTF8 can be from 1 to 4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backwards compatible with ASCII. UTF-8 is the preferred encoding for e-mail and web pages |
UTF-16 | 16-bit Unicode Transformation Format is a variable-length character encoding for Unicode, capable of encoding the entire Unicode repertoire. UTF-16 is used in major operating systems and environments, like Microsoft Windows, Java and .NET. |
युक्ति: यूनिकोड के पहले 128 वर्ण (जो ASCII के साथ एक-से-एक के अनुरूप हैं) को ASCII के समान बाइनरी मान वाले एकल ऑक्टेट का उपयोग करके एन्कोड किया गया है, जिससे मान्य ASCII टेक्स्ट UTF-8-एन्कोडेड यूनिकोड भी मान्य है।
HTML 4 UTF-8 को सपोर्ट करता है। HTML 5 UTF-8 और UTF-16 दोनों को सपोर्ट करता है!
HTML5 मानक: यूनिकोड UTF-8
क्योंकि ISO-8859 में वर्ण सेट आकार में सीमित थे, और बहुभाषी वातावरण में संगत नहीं थे, यूनिकोड कंसोर्टियम ने यूनिकोड मानक विकसित किया।
यूनिकोड मानक दुनिया के सभी पात्रों, विराम चिह्नों और प्रतीकों को (लगभग) कवर करता है।
यूनिकोड मंच और भाषा से स्वतंत्र पाठ के प्रसंस्करण, भंडारण और परिवहन को सक्षम बनाता है।
HTML-5 में डिफॉल्ट कैरेक्टर एन्कोडिंग UTF-8 है।
यदि कोई HTML5 वेब पेज UTF-8 से भिन्न वर्ण सेट का उपयोग करता है, तो उसे <meta> टैग में निर्दिष्ट किया जाना चाहिए जैसे:
उदाहरण
<meta charset="ISO-8859-1">
यूनिकोड और UTF-8 के बीच अंतर
यूनिकोड एक कैरेक्टर सेट है । UTF-8 एन्कोडिंग है ।
यूनिकोड अद्वितीय दशमलव संख्या (कोड अंक) वाले वर्णों की एक सूची है। ए = 65, बी = 66, सी = 67, ....
दशमलव संख्याओं की यह सूची "हैलो" स्ट्रिंग का प्रतिनिधित्व करती है: 104 101 108 108 111
एन्कोडिंग यह है कि इन नंबरों को कंप्यूटर में संग्रहीत करने के लिए बाइनरी नंबरों में कैसे अनुवादित किया जाता है:
UTF-8 एन्कोडिंग "हैलो" को इस तरह स्टोर करेगा (बाइनरी): 01101000 01100101 01101100 01101100 01101111
एन्कोडिंग संख्याओं का बाइनरी में अनुवाद करता है। कैरेक्टर सेट कैरेक्टर को नंबर में ट्रांसलेट करता है।
HTML5 UTF-8 कैरेक्टर कोड
HTML5 द्वारा समर्थित कुछ UTF-8 वर्ण कोडों की सूची नीचे दी गई है:
Character codes | Decimal | Hexadecimal |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |