Jump to content

"युनिकोड" च्या विविध आवृत्यांमधील फरक

विकिपीडिया, मुक्‍त ज्ञानकोशातून
Content deleted Content added
(चर्चा | योगदान)
No edit summary
ओळ १: ओळ १:
युनिकोड ([[रोमन लिपी]]: ''Unicode'' ;) हा आंतरराष्ट्रीय पातळीवर प्रमाणभूत होत असलेला असा एक कॅरॅक्टर सेट (कॅरॅक्टर एनकोडींग) आहे.
युनिकोड ([[रोमन लिपी]]: ''Unicode'' ;) हा आंतरराष्ट्रीय पातळीवर प्रमाणभूत होत असलेला असा एक कॅरॅक्टर सेट (कॅरॅक्टर एनकोडिंग) आहे.


=== कॅरॅक्टर एनकोडिंग ===
=== कॅरॅक्टर एनकोडिंग ===
'कॅरॅक्टर एनकोडिंग' ह्या संज्ञेची अगदी सोपी व्याख्या म्हणजे कोठल्याही 'कोणत्याही एका मानवी भाषेतील सर्व अक्षरे, चिन्हे यांना काही विशिष्ट क्रमाने ठरवून दिलेले गणितीय आकडे'.
'कॅरॅक्टर एनकोडिंग' ह्या संज्ञेची अगदी सोपी व्याख्या म्हणजे कोठल्याही 'कोणत्याही एका मानवी भाषेतील सर्व अक्षरे, चिन्हे यांना काही विशिष्ट क्रमाने ठरवून दिलेले गणितीय आकडे'.


:उदाहरणार्थ, कल्पना करा की एका भाषेत ('क', 'ख, 'ग', 'घ, 'ञ') ही फक्त पाच अक्षरे आहेत. समजा आपण ठरवले की ही पाच अक्षरे (२१,२२,२३,२४,२५) ह्या पाच आकड्यांनी ओळखायची. असे केल्यास ह्या काल्पनिक भाषेतील कोणताही शब्द किंवा वाक्य आपल्याला हे पाच आकडे वापरून लिहिता येईल. उदा. 'कखग' हा शब्द '२१२२२३' असा लिहिता येईल व 'खघकञ' हा शब्द '२२२४२१२५' असा लिहिता येईल.
:उदाहरणार्थ, कल्पना करा, की एका भाषेत ('क', 'ख, 'ग', 'घ, 'ञ') ही फक्त पाच अक्षरे आहेत. समजा आपण ठरवले की ही पाच अक्षरे (२१,२२,२३,२४,२५) ह्या पाच आकड्यांनी ओळखायची. असे केल्यास ह्या काल्पनिक भाषेतील कोणताही शब्द किंवा वाक्य आपल्याला हे पाच आकडे वापरून लिहिता येईल. उदा. 'कखग' हा शब्द '२१२२२३' असा लिहिता येईल व 'खघकञ' हा शब्द '२२२४२१२५' असा लिहिता येईल.
येथे (२१,२२,२३,२४,२५) ह्या आकड्यांच्या समूहाचे ('क', 'ख, 'ग', 'घ, 'ञ') ह्या पाच अक्षरांच्या समूहाशी आपण जे नाते ठरवले त्यास एक कॅरॅक्टर संच म्हटले जाते.
येथे (२१,२२,२३,२४,२५) ह्या आकड्यांच्या समूहाचे ('क', 'ख, 'ग', 'घ, 'ञ') ह्या पाच अक्षरांच्या समूहाशी आपण जे नाते ठरवले त्यास एक कॅरॅक्टर संच म्हटले जाते.


ओळ २५: ओळ २५:


राखाडी रंगाचा ठोकळा अक्षरांसाठी सध्या रिकामी ठेवलेली घरे दाखवतो.<br />
राखाडी रंगाचा ठोकळा अक्षरांसाठी सध्या रिकामी ठेवलेली घरे दाखवतो.<br />
जर तुम्हाला सर्व अक्षरे योग्यप्रकारे दिसत नसतील तर [http://www.unicode.org/charts/PDF/U0900.pdf ही pdf] संचिका डाउनलोड करा (उतरवून घ्या)
जर तुम्हाला सर्व अक्षरे योग्य प्रकारे दिसत नसतील तर [http://www.unicode.org/charts/PDF/U0900.pdf ही pdf] संचिका डाउनलोड करा (उतरवून घ्या)


{{Unicode chart Devanagari}}
{{Unicode chart Devanagari}}


== अतिरिक्त वाढवलेले देवनागरी युनिकोड ==
== अतिरिक्त वाढवलेले देवनागरी युनिकोड ==
जर तुम्हाला सर्व अक्षरे योग्यप्रकारे दिसत नसतील तर [http://www.unicode.org/charts/PDF/UA8E0.pdf ही pdf-२] संचिका डाउनलोड करा (उतरवून घ्या)<br />
जर तुम्हाला सर्व अक्षरे योग्य प्रकारे दिसत नसतील तर [http://www.unicode.org/charts/PDF/UA8E0.pdf ही pdf-२] संचिका डाउनलोड करा (उतरवून घ्या)<br />


{{Unicode chart Devanagari Extended}}<br />
{{Unicode chart Devanagari Extended}}<br />


जर तुम्हाला सर्व अक्षरे योग्यप्रकारे दिसत नसतील तर [http://www.unicode.org/charts/PDF/U1CD0.pdf ही pdf-३] संचिका डाउनलोड करा (उतरवून घ्या)<br />
जर तुम्हाला सर्व अक्षरे योग्य प्रकारे दिसत नसतील तर [http://www.unicode.org/charts/PDF/U1CD0.pdf ही pdf-३] संचिका डाउनलोड करा (उतरवून घ्या)<br />


{{Unicode chart Vedic Extensions}}
{{Unicode chart Vedic Extensions}}
ओळ ५९: ओळ ५९:


== देवनागरी युनिकोड लेखन नियम ==
== देवनागरी युनिकोड लेखन नियम ==
===== स्वतंत्र युनिकोड असलेले अक्षरे =====
===== स्वतंत्र युनिकोड असलेली अक्षरे =====
काही अक्षरे ही दोन युनिकोड जोडून तयार करावी लागतात, परंतु काही अक्षरांना स्वतःचा युनिकोड असतो, तरीही बर्‍याचदा ही अक्षरे चुकीची लिहिली जातात. जसे की '''ॲ''' च्या जागी '''अ‍ॅ''' (ही चूक स्वतः wikipedia मध्ये करण्यात आली आहे ).<br />
काही अक्षरे ही दोन युनिकोड जोडून तयार करावी लागतात, परंतु काही अक्षरांना स्वतःचा युनिकोड असतो, तरीही बर्‍याचदा ही अक्षरे चुकीची लिहिली जातात. जसे की '''ॲ''' च्या जागी '''अ‍ॅ''' (ही चूक स्वतः wikipedia मध्ये करण्यात आली आहे ).(ही चूक कशी? '''ॲ''' हे अक्षर मराठीत नाही, '''अ‍ॅ''' (‘अ’ वर चंद्र) हे आहे. <br />
{| class="wikitable"
{| class="wikitable"
|-
|-
! अक्षर !! युनिकोड !!!
! अक्षर !! युनिकोड !!!
|-
|-
| ॲ || U0972 || मराठी अक्षर
| ॲ || U0972 || मराठी अक्षर. (ॲ हे कुठले अक्षर? हे मराठीतच काय पण जगातील कुठल्याही लिपीत नसावे.)
|-
|-
| ॐ || U0950 ||
| ॐ || U0950 ||
ओळ ८१: ओळ ८१:
ऱ +् + य = ऱ्य <br />
ऱ +् + य = ऱ्य <br />
:युनिकोड U0931+U094D+U092F = [[ऱ्य]] <br />
:युनिकोड U0931+U094D+U092F = [[ऱ्य]] <br />
(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. '''[[ऱ्य]]''' च्या जागी '''र्‍य''' ).<br />
(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. '''[[ऱ्य]]''' च्या जागी '''र्‍य''' ).<br /> '''र्‍य''' बरोबर आहे, '''[[ऱ्य]]''' चूक! मराठीत ऱ हे अक्षर नाही.)


ऱ +् + ह = ऱ्ह <br />
ऱ +् + ह = ऱ्ह <br />
:युनिकोड U0931+U094D+U092F = [[ऱ्ह]] <br />
:युनिकोड U0931+U094D+U092F = [[ऱ्ह]] <br />
(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. '''[[ऱ्ह]]''' च्या जागी '''र्‍ह''' ).<br />
(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. '''[[ऱ्ह]]''' च्या जागी '''र्‍ह''' ).<br /> '''र्‍ह''' बरोबर आहे, '''[[ऱ्ह]]'''' चूक! मराठीत ऱ हे अक्षर नाही.)


क + ् + र = क्र<br />
क + ् + र = क्र<br />
ओळ ९२: ओळ ९२:
:युनिकोड <br />
:युनिकोड <br />


क + ् + क + ् + य = क्क्य <br />
क + ् + क + ् + य = क्क्य <br />
:युनिकोड <br />
:युनिकोड <br />


ओळ ९८: ओळ ९८:
:युनिकोड <br />
:युनिकोड <br />


र +् + क = र्क<br />
र +् + क = र्क<br />
:युनिकोड <br />
:युनिकोड <br />


ओळ १०४: ओळ १०४:
:युनिकोड <br />
:युनिकोड <br />


ब + ृ = बृ <br />(या ऋकाराची वाटी वाकडी का असते? बृ नंतर हु लिहिले तर तो शब्द बृहु असा उमटतो, तो वाचता येईल? वाटी सरळ असती तर ही अडचण आली नसती.)
ब + ृ = बृ <br />
:युनिकोड <br />
:युनिकोड <br />


ओळ ११४: ओळ ११४:
:'''क्‌ + ZWNJ + ष = क्‌ष'''<br />.
:'''क्‌ + ZWNJ + ष = क्‌ष'''<br />.


या उलट कधीकधी दोन्ही व्यंजने आडव्या बांधणीने जोडली जावी अशी आपली इच्छा असते. अशा वेळी ’अक्षर सांधक’((ZWJ-Zero Width Joiner) लागतो. युनिकोडने त्यासाठी U+200D या कोडची योजना केली आहे.
या उलट कधीकधी दोन्ही व्यंजने आडव्या बांधणीने जोडली जावी अशी आपली इच्छा असते. अशा वेळी ’अक्षर सांधक’((ZWJ-Zero Width Joiner) लागतो. युनिकोडने त्यासाठी U+200D या कोडची योजना केली आहे. (कधीकधी अक्षरे उभ्या जोडणीने जोडली जावी अशीही आमची इच्छा असते, त्यासाठी युनिकोडने काय सोय केली आहे?)


<br />
<br />

१९:२१, १० जुलै २०११ ची आवृत्ती

युनिकोड (रोमन लिपी: Unicode ;) हा आंतरराष्ट्रीय पातळीवर प्रमाणभूत होत असलेला असा एक कॅरॅक्टर सेट (कॅरॅक्टर एनकोडिंग) आहे.

कॅरॅक्टर एनकोडिंग

'कॅरॅक्टर एनकोडिंग' ह्या संज्ञेची अगदी सोपी व्याख्या म्हणजे कोठल्याही 'कोणत्याही एका मानवी भाषेतील सर्व अक्षरे, चिन्हे यांना काही विशिष्ट क्रमाने ठरवून दिलेले गणितीय आकडे'.

उदाहरणार्थ, कल्पना करा, की एका भाषेत ('क', 'ख, 'ग', 'घ, 'ञ') ही फक्त पाच अक्षरे आहेत. समजा आपण ठरवले की ही पाच अक्षरे (२१,२२,२३,२४,२५) ह्या पाच आकड्यांनी ओळखायची. असे केल्यास ह्या काल्पनिक भाषेतील कोणताही शब्द किंवा वाक्य आपल्याला हे पाच आकडे वापरून लिहिता येईल. उदा. 'कखग' हा शब्द '२१२२२३' असा लिहिता येईल व 'खघकञ' हा शब्द '२२२४२१२५' असा लिहिता येईल.

येथे (२१,२२,२३,२४,२५) ह्या आकड्यांच्या समूहाचे ('क', 'ख, 'ग', 'घ, 'ञ') ह्या पाच अक्षरांच्या समूहाशी आपण जे नाते ठरवले त्यास एक कॅरॅक्टर संच म्हटले जाते.

हेच उदाहरण पुढे वाढवल्यास मराठीतील १२ स्वर आणि ३६ व्यंजन अक्षरे ही एकूण ४८ आकड्यांनी ओळखता येतील. असे केल्यास हा नवीन कॅरॅक्टर संच एकूण ४८ अक्षरांना आकड्यांचे स्वरूप देईल.

पण असे आकडे ठरवण्याची गरज काय ?

असे करण्याचे एकच कारण आहे व ते म्हणजे संगणकास कोणत्याही भाषेचे ज्ञान नसते. संगणकावर साठवलेली सर्व माहिती ही केवळ आकड्यांच्या स्वरूपात साठवलेली असते. त्याचप्रमाणे संगणकास समजणारी सर्व आज्ञावली हीदेखील आकड्यांच्याच स्वरूपात साठवली जाते.

संगणकाची ही रचना लक्षात घेतली की कॅरॅक्टर संचाचे महत्त्व लक्षात येईल. संगणकास भाषा वा अक्षरे समजत नसल्यामुळे, सर्व अक्षरे, चिन्हे (उदा प्रश्नचिन्ह, स्वल्पविराम इत्यादी) हीदेखील केवळ आकड्यांच्याच स्वरूपात साठवावी लागतात. त्यामुळे कोणताही मजकूर साठवताना कोणत्यातरी एका कॅरॅक्टर एनकोडिंगच्या सहाय्याने तो आकड्यांच्या स्वरूपात साठवला जातो. तो मजकूर पुन्हा दाखवताना (उदा. काँप्युटर मॉनिटरवर दाखविताना ), त्याच आकड्यांवरून अक्षरे ठरवून दाखवली जातात. अशा प्रकारचा एक कॅरॅक्टर संच आहे, जो जगातल्या सध्याच्या बहुतांश संगणकांतील बहुतेक सर्व सॉफ्टवेअर्समध्ये वापरला जातो - तो म्हणजे आस्की (इंग्लिश: ASCII - American Standard Code for Information Interchange. आस्की ह्या सेटमध्ये रोमन लिपीतील सर्व अक्षरे, अंक, विरामचिन्हे (पूर्णविराम, प्रश्नचिन्ह, उद्गारचिन्ह इत्यादी) , तसेच इतर काही चिन्हे ह्यांच्यासाठी एकूण १२८ आकड्यांचा क्रम ठरवला गेला आहे. A ते Z ही अक्षरे ६५ ते ९० ह्या आकड्यांनी तर a ते z ही अक्षरे ९७ ते १२२ ह्या आकड्यांनी ओळखली जातात. अक्षरेच नव्हे तर अंकदेखील काही विशिष्ट आकड्यांनी दर्शविले जातात. 0 ते 9 हे अंक आस्की मध्ये ४८ ते ५७ असे साठवले जातात. दोन शब्दांमधली रिकामी जागा दर्शविण्यासाठी ३२ हा आकडा आहे.


उदा. cat हा शब्द आस्कीमध्ये ९९ ९७ ११६ ह्या तीन आकड्यांत साठवला जातो; तर Cat हा शब्द ६७ ९७ ११६ असा साठवला जातो. 'Windows 95' हा मजकूर '८७ १०५ ११० १०० १११ ११९ ११५ ३२ ५७ ५३' असा होईल व संगणकात साठवला जाईल. आस्कीप्रमाणे इतर अनेक कॅरॅक्टर सेट्‌स प्रचलित असून बहुतांश देशांमध्ये त्या देशाच्या भाषेप्रमाणे कोणतातरी एक कॅरॅक्टर संच प्रमाण मानला जातो. भारतीय भाषांकरिता प्रमाण कॅरॅक्टर सेट इस्की (इस्की) हा आहे. (हा भारतीय सरकारद्वारे साधारणतः १९८० च्या दशकात विकसित करण्यात आला)

असाच एक कॅरॅक्टर सेट म्हणजे युनिकोड.

युनिकोड नावाचा नवीन कॅरॅक्टर संच निर्माण करण्याची गरज काय ?

आस्की किंवा इस्की यांसारखे कॅरॅक्टर सेट फक्त ठरावीक भाषेसाठी ठरवण्यात आले आहेत. भारतीय भाषांसाठी जरी 'इस्की' संच असला तरी तो 'आस्की'चेच रुप आहे. कारण 'आस्की'ला फक्त इंग्रजीलाच बरोबर घेऊन पुढे जायचे होते, तर 'इस्की'ला देवनागरीसह इंग्रजीला घेऊन पुढे जायचे होते. जगातील सर्व भाषांचा संगणकावर वापर करता यावा व सर्व भाषा एकाच कॅरॅक्टर सेटमध्ये वापरता याव्यात यासाठी युनिकोडची निर्मिती करण्यात आली.

युनिकोड मध्ये देवनागरी

(The en:Unicode range for Devanāgarī is U+0900 .. U+097F.)

राखाडी रंगाचा ठोकळा अक्षरांसाठी सध्या रिकामी ठेवलेली घरे दाखवतो.
जर तुम्हाला सर्व अक्षरे योग्य प्रकारे दिसत नसतील तर ही pdf संचिका डाउनलोड करा (उतरवून घ्या)

देवनागरी युनिकोड 0 1 2 3 4 5 6 7 8 9 A B C D E F
U+090x
U+091x
U+092x
U+093x ि
U+094x
U+095x
U+096x
U+097x ॿ



Unicode Chart for Devanagari

अतिरिक्त वाढवलेले देवनागरी युनिकोड

जर तुम्हाला सर्व अक्षरे योग्य प्रकारे दिसत नसतील तर ही pdf-२ संचिका डाउनलोड करा (उतरवून घ्या)

युनिकोड : A8E0–A8FF देवनागरीसाठी अतीरिक्त वाढवलेले युनिकोड
↓ ☸ → A B C D E F
u+A8Ex
u+A8Fx


जर तुम्हाला सर्व अक्षरे योग्य प्रकारे दिसत नसतील तर ही pdf-३ संचिका डाउनलोड करा (उतरवून घ्या)

साचा:Unicode chart Vedic Extensions

अक्षर टंक

टंक म्हणजे font. देवनागरी लिपीसाठी हजारो टंक उपलब्ध आहेत.
खालील दुव्यांवरून ते मिळवता येतील.


टंकाबद्दल माहिती



देवनागरी युनिकोड लेखन नियम

स्वतंत्र युनिकोड असलेली अक्षरे

काही अक्षरे ही दोन युनिकोड जोडून तयार करावी लागतात, परंतु काही अक्षरांना स्वतःचा युनिकोड असतो, तरीही बर्‍याचदा ही अक्षरे चुकीची लिहिली जातात. जसे की च्या जागी अ‍ॅ (ही चूक स्वतः wikipedia मध्ये करण्यात आली आहे ).(ही चूक कशी? हे अक्षर मराठीत नाही, अ‍ॅ (‘अ’ वर चंद्र) हे आहे.

अक्षर युनिकोड !
U0972 मराठी अक्षर. (ॲ हे कुठले अक्षर? हे मराठीतच काय पण जगातील कुठल्याही लिपीत नसावे.)
U0950
U090D हिंदी अक्षर
काही विशिष्ट शब्द कसे निर्माण करतात

क + ् + ष = क्ष

युनिकोड U0915+U094D+U0937 = क्ष

ज + ् + ञ = ज्ञ

युनिकोड U091C+U094D+U091E = ज्ञ

ऱ +् + य = ऱ्य

युनिकोड U0931+U094D+U092F = ऱ्य

(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. ऱ्य च्या जागी र्‍य ).
र्‍य बरोबर आहे, ऱ्य चूक! मराठीत ऱ हे अक्षर नाही.)

ऱ +् + ह = ऱ्ह

युनिकोड U0931+U094D+U092F = ऱ्ह

(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. ऱ्ह च्या जागी र्‍ह ).
र्‍ह बरोबर आहे, ऱ्ह' चूक! मराठीत ऱ हे अक्षर नाही.)

क + ् + र = क्र

प + ् + र = प्र

युनिकोड

क + ् + क + ् + य = क्क्य

युनिकोड

त + ् + र = त्र

युनिकोड

र +् + क = र्क

युनिकोड

र + ् + व = र्व

युनिकोड

ब + ृ = बृ
(या ऋकाराची वाटी वाकडी का असते? बृ नंतर हु लिहिले तर तो शब्द बृहु असा उमटतो, तो वाचता येईल? वाटी सरळ असती तर ही अडचण आली नसती.)

युनिकोड
अक्षर विलगकZWNJ आणि अक्षर सांधकZWJ
ह्या लेखाचा/विभागाचा इंग्रजी किंवा अमराठी भाषेतून मराठी भाषेत भाषांतर करावयाचे बाकी आहे. अनुवाद करण्यास आपलाही सहयोग हवा आहे. ऑनलाईन शब्दकोश आणि इतर सहाय्या करिता भाषांतर प्रकल्पास भेट द्या.


व्यंजनाला पायाशी लावलेले हलन्त(पाय मोडायचे) चिन्ह त्या व्यंजनाचा निभृत(स्वरहीन) उच्चार करावा असे सूचित करते. अशा हलन्त व्यंजनापाठोपाठ दुसरे व्यंजन आले की जोडाक्षर बनते.जोडाक्षर झाल्यामुळे पहिले हलन्त व्यंजन तसे रहात नाही. पण कधीकधी हे पायमोडके अक्षर दिसावे अशी आपली इच्छा असते. अशा वेळी ’अक्षर विलगक’(ZWNJ-Zero Width Non-joiner) वापरून एका पायमोडक्या व्यंजनाशेजारी दुसरे व्यंजन टंकित करता येते. हे साध्य करण्यासाठी युनिकोडने U+200C या संकेताक्षराची योजना केली आहे.

उदा०

क्‌ + ZWNJ + ष = क्‌ष
.

या उलट कधीकधी दोन्ही व्यंजने आडव्या बांधणीने जोडली जावी अशी आपली इच्छा असते. अशा वेळी ’अक्षर सांधक’((ZWJ-Zero Width Joiner) लागतो. युनिकोडने त्यासाठी U+200D या कोडची योजना केली आहे. (कधीकधी अक्षरे उभ्या जोडणीने जोडली जावी अशीही आमची इच्छा असते, त्यासाठी युनिकोडने काय सोय केली आहे?)


क्‌ + ZWJ + ष = क्‍ष


जर अक्षर-सांधक किंवा विलगक वापरला नाही तर,


क्‌ + ष = क्ष


आणि,


क्‌ + ZWNJ + ह = क्‌ह


क्‌ + + ZWJ + ह = क्‍ह.


बरहामध्ये अक्षर-सांधकासाठी कळफलकावरील ‍Λ ची कळ एकदा, आणि अक्षर-विलगकासाठी ‍Λ‍ ‍ची कळ दोनदा दाबावी लागते.


अक्षर-सांधक किंवा विलगक वापरला नाही तर,


क्‌ + ह = ख

टंकन पद्धती


हेही वाचा

बाह्य दुवे