"युनिकोड" च्या विविध आवृत्यांमधील फरक

Content deleted Content added

Inline

२१:५२, १२ जून २०११ ची आवृत्ती

युनिकोड (रोमन लिपी: Unicode ;) हा आंतरराष्ट्रीय पातळीवर प्रमाणभूत होत असलेला असा एक कॅरॅक्टर सेट (कॅरॅक्टर एनकोडींग) आहे.

कॅरॅक्टर एनकोडींग

'कॅरॅक्टर एनकोडिंग' ह्या संज्ञेची अगदी सोपी व्याख्या म्हणजे कोठल्याही 'कोणत्याही एका मानवी भाषेतील सर्व अक्षरे, चिन्हे यांना काही विशिष्ट क्रमाने ठरवून दिलेले गणितीय आकडे'.

उदाहरणार्थ, कल्पना करा की एका भाषेत ('क', 'ख, 'ग', 'घ, 'ञ') ही फक्त पाच अक्षरे आहेत. समजा आपण ठरवले की ही पाच अक्षरे (२१,२२,२३,२४,२५) ह्या पाच आकड्यांनी ओळखायची. असे केल्यास ह्या काल्पनिक भाषेतील कोणताही शब्द किंवा वाक्य आपल्याला हे पाच आकडे वापरून लिहिता येईल. उदा. 'कखग' हा शब्द '२१२२२३' असा लिहिता येईल व 'खघकञ' हा शब्द '२२२४२१२५' असा लिहिता येईल.

येथे (२१,२२,२३,२४,२५) ह्या आकड्यांच्या समूहाचे ('क', 'ख, 'ग', 'घ, 'ञ') ह्या पाच अक्षरांच्या समूहाशी आपण जे नाते ठरवले त्यास एक कॅरॅक्टर संच म्हटले जाते.

हेच उदाहरण पुढे वाढवल्यास मराठीतील १२ स्वर आणि ३६ व्यंजन अक्षरे ही एकूण ४८ आकड्यांनी ओळखता येतील. असे केल्यास हा नवीन कॅरॅक्टर संच एकूण ४८ अक्षरांना आकड्यांचे स्वरूप देईल.

पण असे आकडे ठरवण्याची गरज काय ?

असे करण्याचे एकच कारण आहे व ते म्हणजे संगणकास कोणत्याही भाषेचे ज्ञान नसते. संगणकावर साठवलेली सर्व माहिती ही केवळ आकड्यांच्या स्वरूपात साठवलेली असते. त्याचप्रमाणे संगणकास समजणारी सर्व आज्ञावली हीदेखील आकड्यांच्याच स्वरूपात साठवली जाते.

संगणकाची ही रचना लक्षात घेतली की कॅरॅक्टर संचाचे महत्त्व लक्षात येईल. संगणकास भाषा वा अक्षरे समजत नसल्यामुळे, सर्व अक्षरे, चिन्हे (उदा प्रश्नचिन्ह, स्वल्पविराम इत्यादी) हीदेखील केवळ आकड्यांच्याच स्वरूपात साठवावी लागतात. त्यामुळे कोणताही मजकूर साठवताना कोणत्यातरी एका कॅरॅक्टर एनकोडिंगच्या सहाय्याने तो आकड्यांच्या स्वरूपात साठवला जातो. तो मजकूर पुन्हा दाखवताना (उदा. काँप्युटर मॉनिटरवर दाखविताना ), त्याच आकड्यांवरून अक्षरे ठरवून दाखवली जातात. अशा प्रकारचा एक कॅरॅक्टर संच आहे, जो जगातल्या सध्याच्या बहुतांश संगणकांतील बहुतेक सर्व सॉफ्टवेअर्समध्ये वापरला जातो - तो म्हणजे आस्की (इंग्लिश: ASCII - American Standard Code for Information Interchange. आस्की ह्या सेटमध्ये रोमन लिपीतील सर्व अक्षरे, अंक, विरामचिन्हे (पूर्णविराम, प्रश्नचिन्ह, उद्गारचिन्ह इत्यादी) , तसेच इतर काही चिन्हे ह्यांच्यासाठी एकूण १२८ आकड्यांचा क्रम ठरवला गेला आहे. A ते Z ही अक्षरे ६५ ते ९० ह्या आकड्यांनी तर a ते z ही अक्षरे ९७ ते १२२ ह्या आकड्यांनी ओळखली जातात. अक्षरेच नव्हे तर अंकदेखील काही विशिष्ट आकड्यांनी दर्शविले जातात. 0 ते 9 हे अंक आस्की मध्ये ४८ ते ५७ असे साठवले जातात. दोन शब्दांमधली रिकामी जागा दर्शविण्यासाठी ३२ हा आकडा आहे.

उदा. cat हा शब्द आस्कीमध्ये ९९ ९७ ११६ ह्या तीन आकड्यांत साठवला जातो; तर Cat हा शब्द ६७ ९७ ११६ असा साठवला जातो. 'Windows 95' हा मजकूर '८७ १०५ ११० १०० १११ ११९ ११५ ३२ ५७ ५३' असा होईल व संगणकात साठवला जाईल. आस्कीप्रमाणे इतर अनेक कॅरॅक्टर सेट्‌स प्रचलित असून बहुतांश देशांमध्ये त्या देशाच्या भाषेप्रमाणे कोणतातरी एक कॅरॅक्टर संच प्रमाण मानला जातो. भारतीय भाषांकरिता प्रमाण कॅरॅक्टर सेट इस्की (इस्की) हा आहे. (हा भारतीय सरकारद्वारे साधारणतः १९८० च्या दशकात विकसित करण्यात आला)

असाच एक कॅरॅक्टर सेट म्हणजे युनिकोड.

युनिकोड नावाचा नवीन कॅरॅक्टर संच निर्माण करण्याची गरज काय ?

आस्की किंवा इस्की यांसारखे कॅरॅक्टर सेट फक्त ठरावीक भाषेसाठी ठरवण्यात आले आहेत. जगातील सर्व भाषांचा संगणकावर वापर करता यावा व सर्व भाषा एकाच कॅरॅक्टर सेटमध्ये वापरता याव्यात यासाठी युनिकोडची निर्मिती करण्यात आली.

युनिकोड मध्ये देवनागरी

(The en:Unicode range for Devanāgarī is U+0900 .. U+097F.)

राखाडी रंगाचा ठोकळा अक्षरांसाठी सध्या रिकामी ठेवलेली घरे दाखवतो.
जर तुम्हाला सर्व अक्षरे योग्यप्रकारे दिसत नसतील तर ही pdf संचिका डाउनलोड करा (उतरवून घ्या)

देवनागरी युनिकोड

0

1

2

3

4

5

6

7

8

9

A

B

C

D

E

F

U+090x

ऀ

ँ

ं

ः

ऄ

अ

आ

इ

ई

उ

ऊ

ऋ

ऌ

ऍ

ऎ

ए

U+091x

ऐ

ऑ

ऒ

ओ

औ

क

ख

ग

घ

ङ

च

छ

ज

झ

ञ

U+092x

ट

ठ

ड

ढ

ण

त

थ

द

न

ऩ

प

फ

ब

भ

म

य

U+093x

र

ऱ

ल

ळ

ऴ

व

श

ष

स

ह

ऻ

ऽ

ा

ि

ी

ु

U+094x

ू

ृ

ॄ

ॅ

ॆ

े

ै

ॉ

ॊ

ो

ौ

्

ॎ

ॏ

ॐ

॒

U+095x

॓

॔

ॕ

ॖ

ॗ

क़

ॖ

ॗ

क़

ख़

ग़

ज़

ड़

ढ़

फ़

य़

U+096x

ॠ

ॡ

ॢ

ॣ

।

॥

०

१

२

३

४

५

६

७

८

९

U+097x

॰

ॱ

ॲ

ॳ

ॴ

ॵ

ॶ

ॷ

ॸ

ॹ

ॺ

ॻ

ॼ

ॽ

ॾ

ॿ

Unicode Chart for Devanagari

अतिरिक्त वाढवलेले देवनागरी युनिकोड

जर तुम्हाला सर्व अक्षरे योग्यप्रकारे दिसत नसतील तर ही pdf-२ संचिका डाउनलोड करा (उतरवून घ्या)

युनिकोड : A8E0–A8FF देवनागरीसाठी अतीरिक्त वाढवलेले युनिकोड

↓ ☸ →	०	१	२	३	४	५	६	७	८	९	A	B	C	D	E	F
u+A8Ex	꣠	꣡	꣢	꣣	꣤	꣥	꣦	꣧	꣨	꣩	꣪	꣫	꣬	꣭	꣮	꣯
u+A8Fx	꣰	꣱	ꣲ	ꣳ	ꣴ	ꣵ	ꣶ	ꣷ	꣸	꣹	꣺	ꣻ

जर तुम्हाला सर्व अक्षरे योग्यप्रकारे दिसत नसतील तर ही pdf-३ संचिका डाउनलोड करा (उतरवून घ्या)

साचा:Unicode chart Vedic Extensions

अक्षर टंक

टंक म्हणजे font. देवनागरी लिपीसाठी हजारो टंक उपलब्ध आहेत.
खालील दुव्यांवरून ते मिळवता येतील.

सम्यक टंक वापरून लिहिलेली युनिकोड देवनागरीची काही अक्षरे.
नकुल टंक वापरून लिहिलेली युनिकोड देवनागरीची काही अक्षरे.
सहदेव टंक वापरून लिहिलेली युनिकोड देवनागरीची काही अक्षरे.
समानता टंक वापरून लिहिलेली युनिकोड देवनागरीची काही अक्षरे.

टंकाबद्दल माहिती

Hundreds of Devanagari fonts—free download
Unicode Compliant Open Type Fonts including ligature glyphs (TDIL Data Centre)
Unicode Devanagari font gallery
Download Free Marathi Fonts
Nepali Devanagari fonts free download

देवनागरी युनिकोड लेखन नियम

स्वतंत्र युनिकोड असलेले अक्षरे

काही अक्षरे ही दोन युनिकोड जोडून तयार करावी लागतात, परंतु काही अक्षरांना स्वतःचा युनिकोड असतो, तरीही बर्‍याचदा ही अक्षरे चुकीची लिहिली जातात. जसे की ॲ च्या जागी अ‍ॅ (ही चूक स्वतः wikipedia मध्ये करण्यात आली आहे ).

अक्षर	युनिकोड	!
ॲ	U0972	मराठी अक्षर
ॐ	U0950
ऍ	U090D	हिंदी अक्षर

काही विशिष्ट शब्द कसे निर्माण करतात

क + ् + ष = क्ष

युनिकोड U0915+U094D+U0937 = क्ष

ज + ् + ञ = ज्ञ

युनिकोड U091C+U094D+U091E = ज्ञ

ऱ +् + य = ऱ्य

युनिकोड U0931+U094D+U092F = ऱ्य

(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. ऱ्य च्या जागी र्‍य ).

ऱ +् + ह = ऱ्ह

युनिकोड U0931+U094D+U092F = ऱ्ह

(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. ऱ्ह च्या जागी र्‍ह ).

क + ् + र = क्र

प + ् + र = प्र

युनिकोड

क + ् + क + ् + य = क्क्य

युनिकोड

त + ् + र = त्र

युनिकोड

र +् + क = र्क

युनिकोड

र + ् + व = र्व

युनिकोड

ब + ृ = बृ

युनिकोड

अक्षर विलगकZWNJ आणि अक्षर सांधकZWJ

ह्या लेखाचा/विभागाचा इंग्रजी किंवा अमराठी भाषेतून मराठी भाषेत भाषांतर करावयाचे बाकी आहे. अनुवाद करण्यास आपलाही सहयोग हवा आहे. ऑनलाईन शब्दकोश आणि इतर सहाय्या करिता भाषांतर प्रकल्पास भेट द्या.

कृपया, पुढील भाषांतर संकेतांचे पालन आवर्जून करा.

व्यंजनाला पायाशी लावलेले हलन्त(पाय मोडायचे) चिन्ह त्या व्यंजनाचा निभृत(स्वरहीन) उच्चार करावा असे सूचित करते. अशा हलन्त व्यंजनापाठोपाठ दुसरे व्यंजन आले की जोडाक्षर बनते.जोडाक्षर झाल्यामुळे पहिले हलन्त व्यंजन तसे रहात नाही. पण कधीकधी हे पायमोडके अक्षर दिसावे अशी आपली इच्छा असते. अशा वेळी ’अक्षर विलगक’(ZWNJ-Zero Width Non-joiner) वापरून एक पायमोडक्या व्यंजनाशेजारी दुसरे व्यंजन टंकित करता येते. हे साध्य करण्यासाठी युनिकोडने U+200C या संकेताक्षराची योजना केली आहे.

उदा०

क्‌ + ZWNJ + ष = क्‌ष

Normally a virama character serves to create dead consonants that are, in turn, combined with subsequent consonants to form conjuncts. This behavior usually results in a virama sign not being depicted visually. Occasionally, this default behavior is not desired when a dead consonant should be excluded from conjunct forma- tion, in which case the virama sign is visibly rendered. To accomplish this goal, the Unicode Standard adopts the convention of placing the character U+200C zero width non-joiner immediately after the encoded dead consonant that is to be excluded from conjunct forma- tion. In this case, the virama sign is always depicted as appropriate for the consonant to which it is attached.

क्‌ + ZWNJ + ष = क्‌ष

या उलट कधीकधी दोन्ही व्यंजने आडव्या बांधणीने जोडली जावी अशी आपली इच्छा असते. अशा वेळी ’अक्षर सांधक’((ZWJ-Zero Width Joiner) लागतो. युनिकोडने त्यासाठी U+200D या कोडची योजना केली आहे.

उदा०

क्‌ + ZWJ + ष = क्‍ष
.

In certain cases, it is desirable to prevent a dead consonant from assuming full conjunct formation yet still not appear with an explicit virama. In these cases, the half-form of the consonant is used. To explicitly encode a half-consonant form, the Unicode Standard adopts the convention of placing the character U+200D zero width joiner immediately after the encoded dead consonant. The zero width joiner denotes a nonvisible letter that presents linking or cursive joining behavior on either side (that is, to the previous or fol- lowing letter). Therefore, in the present context, the zero width joiner may be consid- ered to present a context to which a preceding dead consonant may join so as to create the half-form of the consonant.

क्‌ + ZWJ + ष = क्‍ष

त्यामुळे,

क्‌ + ह = ख
क्‌ + ZWNJ + ह = क्‌ह
क्‌ + ZWJ + ह = क्‍ह.

बरहा फ़ॉन्ट्‌समध्ये अक्षर-सांधकासाठी कळफलकावरील ‍Λ ची कळ एकदा, आणि अक्षर-विलगकासाठी ‍Λ‍ ‍ची कळ दोनदा दाबावी लागते.

टंकन पद्धती

Microsoft BhashaIndia—Indic Language Computing resources
Online tool for English (Roman Script) to Hindi (Devanagari script) Transliteration by CDAC Mumbai
On line tools for typing in Unicode Devanagari for the Nepali language
Romanized Nepali Unicode Keyboard developed by OOPSLite Technologies
IndiX, Indian language support for Linux, a site by the Indian National Centre for Software Technology
Devanāgarī Tools: Wiki Sandbox, Devanāgarī Mail, Yahoo/Google Search & Devanāgarī Transliteration
Online Latin to Devanāgarī transliteration tool
Devawriter & Devawriter Pro digitisation tools.

हेही वाचा

बाह्य दुवे

@@ ओळ १०७: / ओळ १०७: @@
 :युनिकोड <br />
-===== ZWNJ आणि ZWJ =====
+===== अक्षर विलगकZWNJ आणि अक्षर सांधकZWJ =====
 {{भाषांतर}}
+व्यंजनाला पायाशी लावलेले हलन्त(पाय मोडायचे) चिन्ह त्या व्यंजनाचा निभृत(स्वरहीन) उच्चार करावा असे सूचित करते. अशा हलन्त व्यंजनापाठोपाठ दुसरे व्यंजन आले की जोडाक्षर बनते.जोडाक्षर झाल्यामुळे पहिले हलन्त व्यंजन तसे रहात नाही. पण कधीकधी हे पायमोडके अक्षर दिसावे अशी आपली इच्छा असते. अशा वेळी ’अक्षर विलगक’(ZWNJ-Zero Width Non-joiner) वापरून एक पायमोडक्या व्यंजनाशेजारी दुसरे व्यंजन टंकित करता येते. हे साध्य करण्यासाठी युनिकोडने U+200C या संकेताक्षराची योजना केली आहे.
+उदा० <br />
+:'''क्‌ + ZWNJ + ष = क्‌ष'''
+<br />
 Normally a virama character serves to create dead consonants
 that are, in turn, combined with subsequent consonants to form conjuncts. This behavior
@@ ओळ १२१: / ओळ १२७: @@
 :'''क्‌ + ZWNJ + ष = क्‌ष'''
 <br />
+या उलट कधीकधी दोन्ही व्यंजने आडव्या बांधणीने जोडली जावी अशी आपली इच्छा असते. अशा वेळी ’अक्षर सांधक’((ZWJ-Zero Width Joiner) लागतो.  युनिकोडने त्यासाठी U+200D या कोडची योजना केली आहे.
+उदा० <br />
+:'''क्‌ + ZWJ + ष = क्‍ष'''<br />.
 In certain cases, it is desirable to prevent a dead consonant from assuming full conjunct
 formation yet still not appear with an explicit virama. In these cases, the half-form of the
@@ ओळ १३१: / ओळ १४२: @@
 half-form of the consonant.
 <br />
 :'''क्‌ + ZWJ + ष = क्‍ष'''<br />
+त्यामुळे,
+* क्‌ + ह = ख
+* क्‌ + ZWNJ + ह = क्‌ह
+* क्‌ + ZWJ + ह = क्‍ह.
+बरहा फ़ॉन्ट्‌समध्ये अक्षर-सांधकासाठी कळफलकावरील ‍Λ ची कळ एकदा, आणि अक्षर-विलगकासाठी  ‍Λ‍ ‍ची कळ दोनदा दाबावी लागते.
 == टंकन पद्धती ==