"युनिकोड" च्या विविध आवृत्यांमधील फरक

विकिपीडिया, मुक्‍त ज्ञानकोशातून
Content deleted Content added
(चर्चा | योगदान)
(चर्चा | योगदान)
ओळ १०७: ओळ १०७:
:युनिकोड <br />
:युनिकोड <br />


===== ZWNJ आणि ZWJ =====
===== अक्षर विलगकZWNJ आणि अक्षर सांधकZWJ =====
{{भाषांतर}}
{{भाषांतर}}
व्यंजनाला पायाशी लावलेले हलन्त(पाय मोडायचे) चिन्ह त्या व्यंजनाचा निभृत(स्वरहीन) उच्चार करावा असे सूचित करते. अशा हलन्त व्यंजनापाठोपाठ दुसरे व्यंजन आले की जोडाक्षर बनते.जोडाक्षर झाल्यामुळे पहिले हलन्त व्यंजन तसे रहात नाही. पण कधीकधी हे पायमोडके अक्षर दिसावे अशी आपली इच्छा असते. अशा वेळी ’अक्षर विलगक’(ZWNJ-Zero Width Non-joiner) वापरून एक पायमोडक्या व्यंजनाशेजारी दुसरे व्यंजन टंकित करता येते. हे साध्य करण्यासाठी युनिकोडने U+200C या संकेताक्षराची योजना केली आहे.

उदा० <br />
:'''क्‌ + ZWNJ + ष = क्‌ष'''
<br />

Normally a virama character serves to create dead consonants
Normally a virama character serves to create dead consonants
that are, in turn, combined with subsequent consonants to form conjuncts. This behavior
that are, in turn, combined with subsequent consonants to form conjuncts. This behavior
ओळ १२१: ओळ १२७:
:'''क्‌ + ZWNJ + ष = क्‌ष'''
:'''क्‌ + ZWNJ + ष = क्‌ष'''
<br />
<br />

या उलट कधीकधी दोन्ही व्यंजने आडव्या बांधणीने जोडली जावी अशी आपली इच्छा असते. अशा वेळी ’अक्षर सांधक’((ZWJ-Zero Width Joiner) लागतो. युनिकोडने त्यासाठी U+200D या कोडची योजना केली आहे.

उदा० <br />
:'''क्‌ + ZWJ + ष = क्‍ष'''<br />.
In certain cases, it is desirable to prevent a dead consonant from assuming full conjunct
In certain cases, it is desirable to prevent a dead consonant from assuming full conjunct
formation yet still not appear with an explicit virama. In these cases, the half-form of the
formation yet still not appear with an explicit virama. In these cases, the half-form of the
ओळ १३१: ओळ १४२:
half-form of the consonant.
half-form of the consonant.
<br />
<br />
:'''क्‌ + ZWJ + ष = क्‍ष'''<br />
:'''क्‌ + ZWJ + ष = क्‍ष'''<br />

त्यामुळे,
* क्‌ + ह = ख
* क्‌ + ZWNJ + ह = क्‌ह
* क्‌ + ZWJ + ह = क्‍ह.

बरहा फ़ॉन्ट्‌समध्ये अक्षर-सांधकासाठी कळफलकावरील ‍Λ ची कळ एकदा, आणि अक्षर-विलगकासाठी ‍Λ‍ ‍ची कळ दोनदा दाबावी लागते.


== टंकन पद्धती ==
== टंकन पद्धती ==

२१:५२, १२ जून २०११ ची आवृत्ती

युनिकोड (रोमन लिपी: Unicode ;) हा आंतरराष्ट्रीय पातळीवर प्रमाणभूत होत असलेला असा एक कॅरॅक्टर सेट (कॅरॅक्टर एनकोडींग) आहे.

कॅरॅक्टर एनकोडींग

'कॅरॅक्टर एनकोडिंग' ह्या संज्ञेची अगदी सोपी व्याख्या म्हणजे कोठल्याही 'कोणत्याही एका मानवी भाषेतील सर्व अक्षरे, चिन्हे यांना काही विशिष्ट क्रमाने ठरवून दिलेले गणितीय आकडे'.

उदाहरणार्थ, कल्पना करा की एका भाषेत ('क', 'ख, 'ग', 'घ, 'ञ') ही फक्त पाच अक्षरे आहेत. समजा आपण ठरवले की ही पाच अक्षरे (२१,२२,२३,२४,२५) ह्या पाच आकड्यांनी ओळखायची. असे केल्यास ह्या काल्पनिक भाषेतील कोणताही शब्द किंवा वाक्य आपल्याला हे पाच आकडे वापरून लिहिता येईल. उदा. 'कखग' हा शब्द '२१२२२३' असा लिहिता येईल व 'खघकञ' हा शब्द '२२२४२१२५' असा लिहिता येईल.

येथे (२१,२२,२३,२४,२५) ह्या आकड्यांच्या समूहाचे ('क', 'ख, 'ग', 'घ, 'ञ') ह्या पाच अक्षरांच्या समूहाशी आपण जे नाते ठरवले त्यास एक कॅरॅक्टर संच म्हटले जाते.

हेच उदाहरण पुढे वाढवल्यास मराठीतील १२ स्वर आणि ३६ व्यंजन अक्षरे ही एकूण ४८ आकड्यांनी ओळखता येतील. असे केल्यास हा नवीन कॅरॅक्टर संच एकूण ४८ अक्षरांना आकड्यांचे स्वरूप देईल.

पण असे आकडे ठरवण्याची गरज काय ?

असे करण्याचे एकच कारण आहे व ते म्हणजे संगणकास कोणत्याही भाषेचे ज्ञान नसते. संगणकावर साठवलेली सर्व माहिती ही केवळ आकड्यांच्या स्वरूपात साठवलेली असते. त्याचप्रमाणे संगणकास समजणारी सर्व आज्ञावली हीदेखील आकड्यांच्याच स्वरूपात साठवली जाते.

संगणकाची ही रचना लक्षात घेतली की कॅरॅक्टर संचाचे महत्त्व लक्षात येईल. संगणकास भाषा वा अक्षरे समजत नसल्यामुळे, सर्व अक्षरे, चिन्हे (उदा प्रश्नचिन्ह, स्वल्पविराम इत्यादी) हीदेखील केवळ आकड्यांच्याच स्वरूपात साठवावी लागतात. त्यामुळे कोणताही मजकूर साठवताना कोणत्यातरी एका कॅरॅक्टर एनकोडिंगच्या सहाय्याने तो आकड्यांच्या स्वरूपात साठवला जातो. तो मजकूर पुन्हा दाखवताना (उदा. काँप्युटर मॉनिटरवर दाखविताना ), त्याच आकड्यांवरून अक्षरे ठरवून दाखवली जातात. अशा प्रकारचा एक कॅरॅक्टर संच आहे, जो जगातल्या सध्याच्या बहुतांश संगणकांतील बहुतेक सर्व सॉफ्टवेअर्समध्ये वापरला जातो - तो म्हणजे आस्की (इंग्लिश: ASCII - American Standard Code for Information Interchange. आस्की ह्या सेटमध्ये रोमन लिपीतील सर्व अक्षरे, अंक, विरामचिन्हे (पूर्णविराम, प्रश्नचिन्ह, उद्गारचिन्ह इत्यादी) , तसेच इतर काही चिन्हे ह्यांच्यासाठी एकूण १२८ आकड्यांचा क्रम ठरवला गेला आहे. A ते Z ही अक्षरे ६५ ते ९० ह्या आकड्यांनी तर a ते z ही अक्षरे ९७ ते १२२ ह्या आकड्यांनी ओळखली जातात. अक्षरेच नव्हे तर अंकदेखील काही विशिष्ट आकड्यांनी दर्शविले जातात. 0 ते 9 हे अंक आस्की मध्ये ४८ ते ५७ असे साठवले जातात. दोन शब्दांमधली रिकामी जागा दर्शविण्यासाठी ३२ हा आकडा आहे.


उदा. cat हा शब्द आस्कीमध्ये ९९ ९७ ११६ ह्या तीन आकड्यांत साठवला जातो; तर Cat हा शब्द ६७ ९७ ११६ असा साठवला जातो. 'Windows 95' हा मजकूर '८७ १०५ ११० १०० १११ ११९ ११५ ३२ ५७ ५३' असा होईल व संगणकात साठवला जाईल. आस्कीप्रमाणे इतर अनेक कॅरॅक्टर सेट्‌स प्रचलित असून बहुतांश देशांमध्ये त्या देशाच्या भाषेप्रमाणे कोणतातरी एक कॅरॅक्टर संच प्रमाण मानला जातो. भारतीय भाषांकरिता प्रमाण कॅरॅक्टर सेट इस्की (इस्की) हा आहे. (हा भारतीय सरकारद्वारे साधारणतः १९८० च्या दशकात विकसित करण्यात आला)

असाच एक कॅरॅक्टर सेट म्हणजे युनिकोड.

युनिकोड नावाचा नवीन कॅरॅक्टर संच निर्माण करण्याची गरज काय ?

आस्की किंवा इस्की यांसारखे कॅरॅक्टर सेट फक्त ठरावीक भाषेसाठी ठरवण्यात आले आहेत. जगातील सर्व भाषांचा संगणकावर वापर करता यावा व सर्व भाषा एकाच कॅरॅक्टर सेटमध्ये वापरता याव्यात यासाठी युनिकोडची निर्मिती करण्यात आली.

युनिकोड मध्ये देवनागरी

(The en:Unicode range for Devanāgarī is U+0900 .. U+097F.)

राखाडी रंगाचा ठोकळा अक्षरांसाठी सध्या रिकामी ठेवलेली घरे दाखवतो.
जर तुम्हाला सर्व अक्षरे योग्यप्रकारे दिसत नसतील तर ही pdf संचिका डाउनलोड करा (उतरवून घ्या)

देवनागरी युनिकोड 0 1 2 3 4 5 6 7 8 9 A B C D E F
U+090x
U+091x
U+092x
U+093x ि
U+094x
U+095x
U+096x
U+097x ॿ



Unicode Chart for Devanagari

अतिरिक्त वाढवलेले देवनागरी युनिकोड

जर तुम्हाला सर्व अक्षरे योग्यप्रकारे दिसत नसतील तर ही pdf-२ संचिका डाउनलोड करा (उतरवून घ्या)

युनिकोड : A8E0–A8FF देवनागरीसाठी अतीरिक्त वाढवलेले युनिकोड
↓ ☸ → A B C D E F
u+A8Ex
u+A8Fx


जर तुम्हाला सर्व अक्षरे योग्यप्रकारे दिसत नसतील तर ही pdf-३ संचिका डाउनलोड करा (उतरवून घ्या)

साचा:Unicode chart Vedic Extensions

अक्षर टंक

टंक म्हणजे font. देवनागरी लिपीसाठी हजारो टंक उपलब्ध आहेत.
खालील दुव्यांवरून ते मिळवता येतील.


टंकाबद्दल माहिती



देवनागरी युनिकोड लेखन नियम

स्वतंत्र युनिकोड असलेले अक्षरे

काही अक्षरे ही दोन युनिकोड जोडून तयार करावी लागतात, परंतु काही अक्षरांना स्वतःचा युनिकोड असतो, तरीही बर्‍याचदा ही अक्षरे चुकीची लिहिली जातात. जसे की च्या जागी अ‍ॅ (ही चूक स्वतः wikipedia मध्ये करण्यात आली आहे ).

अक्षर युनिकोड !
U0972 मराठी अक्षर
U0950
U090D हिंदी अक्षर
काही विशिष्ट शब्द कसे निर्माण करतात

क + ् + ष = क्ष

युनिकोड U0915+U094D+U0937 = क्ष

ज + ् + ञ = ज्ञ

युनिकोड U091C+U094D+U091E = ज्ञ

ऱ +् + य = ऱ्य

युनिकोड U0931+U094D+U092F = ऱ्य

(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. ऱ्य च्या जागी र्‍य ).

ऱ +् + ह = ऱ्ह

युनिकोड U0931+U094D+U092F = ऱ्ह

(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. ऱ्ह च्या जागी र्‍ह ).

क + ् + र = क्र

प + ् + र = प्र

युनिकोड

क + ् + क + ् + य = क्क्य

युनिकोड

त + ् + र = त्र

युनिकोड

र +् + क = र्क

युनिकोड

र + ् + व = र्व

युनिकोड

ब + ृ = बृ

युनिकोड
अक्षर विलगकZWNJ आणि अक्षर सांधकZWJ
ह्या लेखाचा/विभागाचा इंग्रजी किंवा अमराठी भाषेतून मराठी भाषेत भाषांतर करावयाचे बाकी आहे. अनुवाद करण्यास आपलाही सहयोग हवा आहे. ऑनलाईन शब्दकोश आणि इतर सहाय्या करिता भाषांतर प्रकल्पास भेट द्या.


व्यंजनाला पायाशी लावलेले हलन्त(पाय मोडायचे) चिन्ह त्या व्यंजनाचा निभृत(स्वरहीन) उच्चार करावा असे सूचित करते. अशा हलन्त व्यंजनापाठोपाठ दुसरे व्यंजन आले की जोडाक्षर बनते.जोडाक्षर झाल्यामुळे पहिले हलन्त व्यंजन तसे रहात नाही. पण कधीकधी हे पायमोडके अक्षर दिसावे अशी आपली इच्छा असते. अशा वेळी ’अक्षर विलगक’(ZWNJ-Zero Width Non-joiner) वापरून एक पायमोडक्या व्यंजनाशेजारी दुसरे व्यंजन टंकित करता येते. हे साध्य करण्यासाठी युनिकोडने U+200C या संकेताक्षराची योजना केली आहे.

उदा०

क्‌ + ZWNJ + ष = क्‌ष


Normally a virama character serves to create dead consonants that are, in turn, combined with subsequent consonants to form conjuncts. This behavior usually results in a virama sign not being depicted visually. Occasionally, this default behavior is not desired when a dead consonant should be excluded from conjunct forma- tion, in which case the virama sign is visibly rendered. To accomplish this goal, the Unicode Standard adopts the convention of placing the character U+200C zero width non-joiner immediately after the encoded dead consonant that is to be excluded from conjunct forma- tion. In this case, the virama sign is always depicted as appropriate for the consonant to which it is attached.

क्‌ + ZWNJ + ष = क्‌ष


या उलट कधीकधी दोन्ही व्यंजने आडव्या बांधणीने जोडली जावी अशी आपली इच्छा असते. अशा वेळी ’अक्षर सांधक’((ZWJ-Zero Width Joiner) लागतो. युनिकोडने त्यासाठी U+200D या कोडची योजना केली आहे.

उदा०

क्‌ + ZWJ + ष = क्‍ष
.

In certain cases, it is desirable to prevent a dead consonant from assuming full conjunct formation yet still not appear with an explicit virama. In these cases, the half-form of the consonant is used. To explicitly encode a half-consonant form, the Unicode Standard adopts the convention of placing the character U+200D zero width joiner immediately after the encoded dead consonant. The zero width joiner denotes a nonvisible letter that presents linking or cursive joining behavior on either side (that is, to the previous or fol- lowing letter). Therefore, in the present context, the zero width joiner may be consid- ered to present a context to which a preceding dead consonant may join so as to create the half-form of the consonant.

क्‌ + ZWJ + ष = क्‍ष

त्यामुळे,

  • क्‌ + ह = ख
  • क्‌ + ZWNJ + ह = क्‌ह
  • क्‌ + ZWJ + ह = क्‍ह.

बरहा फ़ॉन्ट्‌समध्ये अक्षर-सांधकासाठी कळफलकावरील ‍Λ ची कळ एकदा, आणि अक्षर-विलगकासाठी ‍Λ‍ ‍ची कळ दोनदा दाबावी लागते.

टंकन पद्धती


हेही वाचा

बाह्य दुवे