"युनिकोड" च्या विविध आवृत्यांमधील फरक
ओळ १०७: | ओळ १०७: | ||
:युनिकोड <br /> |
:युनिकोड <br /> |
||
===== |
===== अक्षर विलगकZWNJ आणि अक्षर सांधकZWJ ===== |
||
{{भाषांतर}} |
{{भाषांतर}} |
||
व्यंजनाला पायाशी लावलेले हलन्त(पाय मोडायचे) चिन्ह त्या व्यंजनाचा निभृत(स्वरहीन) उच्चार करावा असे सूचित करते. अशा हलन्त व्यंजनापाठोपाठ दुसरे व्यंजन आले की जोडाक्षर बनते.जोडाक्षर झाल्यामुळे पहिले हलन्त व्यंजन तसे रहात नाही. पण कधीकधी हे पायमोडके अक्षर दिसावे अशी आपली इच्छा असते. अशा वेळी ’अक्षर विलगक’(ZWNJ-Zero Width Non-joiner) वापरून एक पायमोडक्या व्यंजनाशेजारी दुसरे व्यंजन टंकित करता येते. हे साध्य करण्यासाठी युनिकोडने U+200C या संकेताक्षराची योजना केली आहे. |
|||
उदा० <br /> |
|||
:'''क् + ZWNJ + ष = क्ष''' |
|||
<br /> |
|||
Normally a virama character serves to create dead consonants |
Normally a virama character serves to create dead consonants |
||
that are, in turn, combined with subsequent consonants to form conjuncts. This behavior |
that are, in turn, combined with subsequent consonants to form conjuncts. This behavior |
||
ओळ १२१: | ओळ १२७: | ||
:'''क् + ZWNJ + ष = क्ष''' |
:'''क् + ZWNJ + ष = क्ष''' |
||
<br /> |
<br /> |
||
या उलट कधीकधी दोन्ही व्यंजने आडव्या बांधणीने जोडली जावी अशी आपली इच्छा असते. अशा वेळी ’अक्षर सांधक’((ZWJ-Zero Width Joiner) लागतो. युनिकोडने त्यासाठी U+200D या कोडची योजना केली आहे. |
|||
उदा० <br /> |
|||
:'''क् + ZWJ + ष = क्ष'''<br />. |
|||
In certain cases, it is desirable to prevent a dead consonant from assuming full conjunct |
In certain cases, it is desirable to prevent a dead consonant from assuming full conjunct |
||
formation yet still not appear with an explicit virama. In these cases, the half-form of the |
formation yet still not appear with an explicit virama. In these cases, the half-form of the |
||
ओळ १३१: | ओळ १४२: | ||
half-form of the consonant. |
half-form of the consonant. |
||
<br /> |
<br /> |
||
:'''क् + ZWJ + ष = क्ष'''<br /> |
:'''क् + ZWJ + ष = क्ष'''<br /> |
||
त्यामुळे, |
|||
* क् + ह = ख |
|||
* क् + ZWNJ + ह = क्ह |
|||
* क् + ZWJ + ह = क्ह. |
|||
बरहा फ़ॉन्ट्समध्ये अक्षर-सांधकासाठी कळफलकावरील Λ ची कळ एकदा, आणि अक्षर-विलगकासाठी Λ ची कळ दोनदा दाबावी लागते. |
|||
== टंकन पद्धती == |
== टंकन पद्धती == |
२१:५२, १२ जून २०११ ची आवृत्ती
युनिकोड (रोमन लिपी: Unicode ;) हा आंतरराष्ट्रीय पातळीवर प्रमाणभूत होत असलेला असा एक कॅरॅक्टर सेट (कॅरॅक्टर एनकोडींग) आहे.
कॅरॅक्टर एनकोडींग
'कॅरॅक्टर एनकोडिंग' ह्या संज्ञेची अगदी सोपी व्याख्या म्हणजे कोठल्याही 'कोणत्याही एका मानवी भाषेतील सर्व अक्षरे, चिन्हे यांना काही विशिष्ट क्रमाने ठरवून दिलेले गणितीय आकडे'.
- उदाहरणार्थ, कल्पना करा की एका भाषेत ('क', 'ख, 'ग', 'घ, 'ञ') ही फक्त पाच अक्षरे आहेत. समजा आपण ठरवले की ही पाच अक्षरे (२१,२२,२३,२४,२५) ह्या पाच आकड्यांनी ओळखायची. असे केल्यास ह्या काल्पनिक भाषेतील कोणताही शब्द किंवा वाक्य आपल्याला हे पाच आकडे वापरून लिहिता येईल. उदा. 'कखग' हा शब्द '२१२२२३' असा लिहिता येईल व 'खघकञ' हा शब्द '२२२४२१२५' असा लिहिता येईल.
येथे (२१,२२,२३,२४,२५) ह्या आकड्यांच्या समूहाचे ('क', 'ख, 'ग', 'घ, 'ञ') ह्या पाच अक्षरांच्या समूहाशी आपण जे नाते ठरवले त्यास एक कॅरॅक्टर संच म्हटले जाते.
हेच उदाहरण पुढे वाढवल्यास मराठीतील १२ स्वर आणि ३६ व्यंजन अक्षरे ही एकूण ४८ आकड्यांनी ओळखता येतील. असे केल्यास हा नवीन कॅरॅक्टर संच एकूण ४८ अक्षरांना आकड्यांचे स्वरूप देईल.
पण असे आकडे ठरवण्याची गरज काय ?
असे करण्याचे एकच कारण आहे व ते म्हणजे संगणकास कोणत्याही भाषेचे ज्ञान नसते. संगणकावर साठवलेली सर्व माहिती ही केवळ आकड्यांच्या स्वरूपात साठवलेली असते. त्याचप्रमाणे संगणकास समजणारी सर्व आज्ञावली हीदेखील आकड्यांच्याच स्वरूपात साठवली जाते.
- संगणकाची ही रचना लक्षात घेतली की कॅरॅक्टर संचाचे महत्त्व लक्षात येईल. संगणकास भाषा वा अक्षरे समजत नसल्यामुळे, सर्व अक्षरे, चिन्हे (उदा प्रश्नचिन्ह, स्वल्पविराम इत्यादी) हीदेखील केवळ आकड्यांच्याच स्वरूपात साठवावी लागतात. त्यामुळे कोणताही मजकूर साठवताना कोणत्यातरी एका कॅरॅक्टर एनकोडिंगच्या सहाय्याने तो आकड्यांच्या स्वरूपात साठवला जातो. तो मजकूर पुन्हा दाखवताना (उदा. काँप्युटर मॉनिटरवर दाखविताना ), त्याच आकड्यांवरून अक्षरे ठरवून दाखवली जातात. अशा प्रकारचा एक कॅरॅक्टर संच आहे, जो जगातल्या सध्याच्या बहुतांश संगणकांतील बहुतेक सर्व सॉफ्टवेअर्समध्ये वापरला जातो - तो म्हणजे आस्की (इंग्लिश: ASCII - American Standard Code for Information Interchange. आस्की ह्या सेटमध्ये रोमन लिपीतील सर्व अक्षरे, अंक, विरामचिन्हे (पूर्णविराम, प्रश्नचिन्ह, उद्गारचिन्ह इत्यादी) , तसेच इतर काही चिन्हे ह्यांच्यासाठी एकूण १२८ आकड्यांचा क्रम ठरवला गेला आहे. A ते Z ही अक्षरे ६५ ते ९० ह्या आकड्यांनी तर a ते z ही अक्षरे ९७ ते १२२ ह्या आकड्यांनी ओळखली जातात. अक्षरेच नव्हे तर अंकदेखील काही विशिष्ट आकड्यांनी दर्शविले जातात. 0 ते 9 हे अंक आस्की मध्ये ४८ ते ५७ असे साठवले जातात. दोन शब्दांमधली रिकामी जागा दर्शविण्यासाठी ३२ हा आकडा आहे.
उदा. cat हा शब्द आस्कीमध्ये ९९ ९७ ११६ ह्या तीन आकड्यांत साठवला जातो; तर Cat हा शब्द ६७ ९७ ११६ असा साठवला जातो. 'Windows 95' हा मजकूर '८७ १०५ ११० १०० १११ ११९ ११५ ३२ ५७ ५३' असा होईल व संगणकात साठवला जाईल. आस्कीप्रमाणे इतर अनेक कॅरॅक्टर सेट्स प्रचलित असून बहुतांश देशांमध्ये त्या देशाच्या भाषेप्रमाणे कोणतातरी एक कॅरॅक्टर संच प्रमाण मानला जातो. भारतीय भाषांकरिता प्रमाण कॅरॅक्टर सेट इस्की (इस्की) हा आहे. (हा भारतीय सरकारद्वारे साधारणतः १९८० च्या दशकात विकसित करण्यात आला)
असाच एक कॅरॅक्टर सेट म्हणजे युनिकोड.
युनिकोड नावाचा नवीन कॅरॅक्टर संच निर्माण करण्याची गरज काय ?
आस्की किंवा इस्की यांसारखे कॅरॅक्टर सेट फक्त ठरावीक भाषेसाठी ठरवण्यात आले आहेत. जगातील सर्व भाषांचा संगणकावर वापर करता यावा व सर्व भाषा एकाच कॅरॅक्टर सेटमध्ये वापरता याव्यात यासाठी युनिकोडची निर्मिती करण्यात आली.
युनिकोड मध्ये देवनागरी
(The en:Unicode range for Devanāgarī is U+0900 .. U+097F.)
राखाडी रंगाचा ठोकळा अक्षरांसाठी सध्या रिकामी ठेवलेली घरे दाखवतो.
जर तुम्हाला सर्व अक्षरे योग्यप्रकारे दिसत नसतील तर ही pdf संचिका डाउनलोड करा (उतरवून घ्या)
देवनागरी युनिकोड | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F |
U+090x | ऀ | ँ | ं | ः | ऄ | अ | आ | इ | ई | उ | ऊ | ऋ | ऌ | ऍ | ऎ | ए |
U+091x | ऐ | ऑ | ऒ | ओ | औ | क | ख | ग | घ | ङ | ङ | च | छ | ज | झ | ञ |
U+092x | ट | ठ | ड | ढ | ण | त | थ | द | न | ऩ | प | फ | ब | भ | म | य |
U+093x | र | ऱ | ल | ळ | ऴ | व | श | ष | स | ह | ऻ | ऽ | ा | ि | ी | ु |
U+094x | ू | ृ | ॄ | ॅ | ॆ | े | ै | ॉ | ॊ | ो | ौ | ् | ॎ | ॏ | ॐ | ॒ |
U+095x | ॓ | ॔ | ॕ | ॖ | ॗ | क़ | ॖ | ॗ | क़ | ख़ | ग़ | ज़ | ड़ | ढ़ | फ़ | य़ |
U+096x | ॠ | ॡ | ॢ | ॣ | । | ॥ | ० | १ | २ | ३ | ४ | ५ | ६ | ७ | ८ | ९ |
U+097x | ॰ | ॱ | ॲ | ॳ | ॴ | ॵ | ॶ | ॷ | ॸ | ॹ | ॺ | ॻ | ॼ | ॽ | ॾ | ॿ |
अतिरिक्त वाढवलेले देवनागरी युनिकोड
जर तुम्हाला सर्व अक्षरे योग्यप्रकारे दिसत नसतील तर ही pdf-२ संचिका डाउनलोड करा (उतरवून घ्या)
↓ ☸ → | ० | १ | २ | ३ | ४ | ५ | ६ | ७ | ८ | ९ | A | B | C | D | E | F |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
u+A8Ex | ꣠ | ꣡ | ꣢ | ꣣ | ꣤ | ꣥ | ꣦ | ꣧ | ꣨ | ꣩ | ꣪ | ꣫ | ꣬ | ꣭ | ꣮ | ꣯ |
u+A8Fx | ꣰ | ꣱ | ꣲ | ꣳ | ꣴ | ꣵ | ꣶ | ꣷ | ꣸ | ꣹ | ꣺ | ꣻ |
जर तुम्हाला सर्व अक्षरे योग्यप्रकारे दिसत नसतील तर ही pdf-३ संचिका डाउनलोड करा (उतरवून घ्या)
साचा:Unicode chart Vedic Extensions
अक्षर टंक
टंक म्हणजे font. देवनागरी लिपीसाठी हजारो टंक उपलब्ध आहेत.
खालील दुव्यांवरून ते मिळवता येतील.
-
सम्यक टंक वापरून लिहिलेली युनिकोड देवनागरीची काही अक्षरे.
-
नकुल टंक वापरून लिहिलेली युनिकोड देवनागरीची काही अक्षरे.
-
सहदेव टंक वापरून लिहिलेली युनिकोड देवनागरीची काही अक्षरे.
-
समानता टंक वापरून लिहिलेली युनिकोड देवनागरीची काही अक्षरे.
- Hundreds of Devanagari fonts—free download
- Unicode Compliant Open Type Fonts including ligature glyphs (TDIL Data Centre)
- Unicode Devanagari font gallery
- Download Free Marathi Fonts
- Nepali Devanagari fonts free download
देवनागरी युनिकोड लेखन नियम
स्वतंत्र युनिकोड असलेले अक्षरे
काही अक्षरे ही दोन युनिकोड जोडून तयार करावी लागतात, परंतु काही अक्षरांना स्वतःचा युनिकोड असतो, तरीही बर्याचदा ही अक्षरे चुकीची लिहिली जातात. जसे की ॲ च्या जागी अॅ (ही चूक स्वतः wikipedia मध्ये करण्यात आली आहे ).
अक्षर | युनिकोड | ! |
---|---|---|
ॲ | U0972 | मराठी अक्षर |
ॐ | U0950 | |
ऍ | U090D | हिंदी अक्षर |
काही विशिष्ट शब्द कसे निर्माण करतात
क + ् + ष = क्ष
- युनिकोड U0915+U094D+U0937 = क्ष
ज + ् + ञ = ज्ञ
- युनिकोड U091C+U094D+U091E = ज्ञ
ऱ +् + य = ऱ्य
- युनिकोड U0931+U094D+U092F = ऱ्य
(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. ऱ्य च्या जागी र्य ).
ऱ +् + ह = ऱ्ह
- युनिकोड U0931+U094D+U092F = ऱ्ह
(वरील चूक स्वतः wikipedia मध्ये करण्यात आली आहे. ऱ्ह च्या जागी र्ह ).
क + ् + र = क्र
प + ् + र = प्र
- युनिकोड
क + ् + क + ् + य = क्क्य
- युनिकोड
त + ् + र = त्र
- युनिकोड
र +् + क = र्क
- युनिकोड
र + ् + व = र्व
- युनिकोड
ब + ृ = बृ
- युनिकोड
अक्षर विलगकZWNJ आणि अक्षर सांधकZWJ
व्यंजनाला पायाशी लावलेले हलन्त(पाय मोडायचे) चिन्ह त्या व्यंजनाचा निभृत(स्वरहीन) उच्चार करावा असे सूचित करते. अशा हलन्त व्यंजनापाठोपाठ दुसरे व्यंजन आले की जोडाक्षर बनते.जोडाक्षर झाल्यामुळे पहिले हलन्त व्यंजन तसे रहात नाही. पण कधीकधी हे पायमोडके अक्षर दिसावे अशी आपली इच्छा असते. अशा वेळी ’अक्षर विलगक’(ZWNJ-Zero Width Non-joiner) वापरून एक पायमोडक्या व्यंजनाशेजारी दुसरे व्यंजन टंकित करता येते. हे साध्य करण्यासाठी युनिकोडने U+200C या संकेताक्षराची योजना केली आहे.
उदा०
- क् + ZWNJ + ष = क्ष
Normally a virama character serves to create dead consonants
that are, in turn, combined with subsequent consonants to form conjuncts. This behavior
usually results in a virama sign not being depicted visually. Occasionally, this default
behavior is not desired when a dead consonant should be excluded from conjunct forma-
tion, in which case the virama sign is visibly rendered. To accomplish this goal, the Unicode
Standard adopts the convention of placing the character U+200C zero width non-joiner
immediately after the encoded dead consonant that is to be excluded from conjunct forma-
tion. In this case, the virama sign is always depicted as appropriate for the consonant to
which it is attached.
- क् + ZWNJ + ष = क्ष
या उलट कधीकधी दोन्ही व्यंजने आडव्या बांधणीने जोडली जावी अशी आपली इच्छा असते. अशा वेळी ’अक्षर सांधक’((ZWJ-Zero Width Joiner) लागतो. युनिकोडने त्यासाठी U+200D या कोडची योजना केली आहे.
उदा०
- क् + ZWJ + ष = क्ष
.
In certain cases, it is desirable to prevent a dead consonant from assuming full conjunct
formation yet still not appear with an explicit virama. In these cases, the half-form of the
consonant is used. To explicitly encode a half-consonant form, the Unicode Standard
adopts the convention of placing the character U+200D zero width joiner immediately
after the encoded dead consonant. The zero width joiner denotes a nonvisible letter that
presents linking or cursive joining behavior on either side (that is, to the previous or fol-
lowing letter). Therefore, in the present context, the zero width joiner may be consid-
ered to present a context to which a preceding dead consonant may join so as to create the
half-form of the consonant.
- क् + ZWJ + ष = क्ष
त्यामुळे,
- क् + ह = ख
- क् + ZWNJ + ह = क्ह
- क् + ZWJ + ह = क्ह.
बरहा फ़ॉन्ट्समध्ये अक्षर-सांधकासाठी कळफलकावरील Λ ची कळ एकदा, आणि अक्षर-विलगकासाठी Λ ची कळ दोनदा दाबावी लागते.
टंकन पद्धती
- Microsoft BhashaIndia—Indic Language Computing resources
- Online tool for English (Roman Script) to Hindi (Devanagari script) Transliteration by CDAC Mumbai
- On line tools for typing in Unicode Devanagari for the Nepali language
- Romanized Nepali Unicode Keyboard developed by OOPSLite Technologies
- IndiX, Indian language support for Linux, a site by the Indian National Centre for Software Technology
- Devanāgarī Tools: Wiki Sandbox, Devanāgarī Mail, Yahoo/Google Search & Devanāgarī Transliteration
- Online Latin to Devanāgarī transliteration tool
- Devawriter & Devawriter Pro digitisation tools.