विकिपीडिया:धूळपाटी/प्रकाशकीय शब्दओळख

विकिपीडिया, मुक्‍त ज्ञानकोशातून
Translation arrow-indic.svg
ह्या लेखाचा/विभागाचा इंग्रजी किंवा अमराठी भाषेतून मराठी भाषेत भाषांतर करावयाचे बाकी आहे. अनुवाद करण्यास आपलाही सहयोग हवा आहे. ऑनलाईन शब्दकोश आणि इतर सहाय्या करिता भाषांतर प्रकल्पास भेट द्या.




Info talk.png
हा लेख/हे पान अवर्गीकृत आहे.
कृपया या लेखाचे/पानाचे वर्गीकरण करण्यास मदत करा जेणेकरून हा लेख/हे पान संबंधित विषयाच्या सूचीमध्ये समाविष्ट होईल. वर्गीकरणानंतर हा संदेश काढून टाकावा अशी विनंती करण्यात येते.


या प्रकाराला ओसीआर असे म्हणतात. म्हणजे ऑप्टिकल कॅरेक्टर रेक्गनायझींग. इंग्रजीभाषेसाठी असे ओसीआर आहेत. मराठीत सुध्दा असा एक प्रयत्न केलेला आहे. मात्र ते सॉफ्टवेअर चांगले चालल्याचे ऐकीवात नाही. तरीही प्रयत्न करून पहायला हरकर नाही. सॉफ्टवेअर मोफत आहे.

येथे बघा http://ildc.gov.in/marathi/tools/16.htm

येथे मराठी फॉन्ट आणि सॉफ्टवेअर्सची खूप छान सूची आहे http://ildc.gov.in/marathi/mdownload2000.htm


हस्तलिखित, टाइप किये हुए या प्रिन्ट किये हुए पाठ (टेक्स्ट) की छबि का कम्प्यूटर द्वारा पढ़े जाने योग्य टेक्स्ट रूप में परिवर्तन ओसीआर (प्रकाश द्वारा वर्णों की पहचान/Optical charecter recognition) कहलाती है। आजकल यह छबि-प्रसंस्करण पर आधारित कम्प्यूटर प्रोग्रामों द्वारा आसानी से सम्भव हो गया है किन्तु इसे यांत्रिक तरीकों से भी करना सम्भव है।

वस्तुत: यह पैटर्न की पहचान, कृत्रिम बुद्धि और मशीनी-दृष्टि (machine vision) के क्षेत्र में अनुसंधान का एक क्षेत्र है। पहले ओसीआर प्रोग्रामों को प्रशिक्षित करना पड़ता था किन्तु अब बहुत से 'बुद्धिमान' प्रोग्राम भी बना दिये गये हैं जो अधिकांश फांटों को बहुत अधिक शुद्धता के साथ पहचान लेते हैं।


संस्कृत / हिन्दी ओसीआर काम लायक हिन्दी ओसीआर की तलाश बहुतों को बहुत समय से है. संस्कृत ओसीआर नाम का एक सॉफ़्टवेयर बहुत समय से इंटरनेट पर मुफ़्त प्रयोग के लिए लंबे समय से उपलब्ध था, मगर इसका इंटरफेस जर्मन भाषा में होने के कारण इसकी उपयोगिता सीमित किस्म की थी. अभी हाल ही में इसे अंग्रेज़ी इंटरफेस के साथ जारी किया गया. इस प्रोग्राम की जांच परख की गई तो प्रतीत हुआ कि यह काम कर सकता है. इस ओसीआर से स्कैन कर तैयार किए गए हिन्दी डिजिटाइज्ड पाठ का पहला उदाहरण चन्द्रधर शर्मा गुलेरी का यह आलेख है. ओसीआर में रोमन में पाठ एकत्र होता है, जिसे यूनिकोड में परिवर्तित करना होता है. इसके लिए तकनीकी हिन्दी समूह के सर्वश्री अनुनाद व नारायण प्रसाद ने त्वरित सहयोग कर (इन्हें विशेष धन्यवाद,) एक परिवर्तक औजार भी तैयार कर दिया. (चित्र को बड़ा कर देखने के लिए उस पर क्लिक करें) आइए, इस ओसीआर के प्रयोग की चरण-दर-चरण विधि देखें. (1) संस्कृत ओसीआर यहाँ से डाउनलोड कर संस्थापित करें (विंडोज प्रोग्राम – एक्सपी व 7 पर कार्य करता है) (2) संस्कृत ओसीआर प्रोग्राम चालू करें, फ़ाइल मेन्यू में नया दस्तावेज पर क्लिक करें तथा प्रकट विंडो में यहाँ सहेजें संवाद बक्से में फ़ाइल नाम के सामने कोई फ़ाइल नाम दें तथा सहेजें पर क्लिक करें. (3) अपना स्कैनर चालू करें. उसमें स्कैन करने के लिए हिन्दी की कोई किताब इत्यादि रखें. किताब सीधा रखें. अब फ़ाइल मेन्यू में स्कैन एन इमेज पर क्लिक करें. इमेज स्कैनर प्रोग्राम चालू हो जाएगा. इसकी सेटिंग ग्रेस्केल पर 600 डीपीआई पर सेट करें तथा पाठ को सलेक्ट कर स्कैन करें. कार्य पूरा होने पर स्कैन किया पाठ ओसीआर के ऊपरी बाएँ कोने में दिखाई देगा. (4) ओसीआर मेन्यू में ओसीआर फंक्शन्स पर क्लिक करें तथा क्लीन इमेज पर क्लिक करें. कुछ समय के बाद स्कैन किया पाठ लाल रंग के बक्सों सहित दिखेगा. (5) अब अगले चरण में ओसीआर फंक्शन पर क्लिक करें तथा रिकग्नीशन पर क्लिक करें. कुछ समय में यह पाठ का रोमनीकृत रूप अनुप्रयोग विंडो के निचले खंड में प्रदर्शित होगा. पाठ कुछ इस तरह का होगा – ya¸odånandana asvaurï å8ityådi kï åtmakahånï 8å¸abda samåja rme merå samgåna kucha kama nahï 6ai / merå itanå u?ådara iai_ ki vaktå aura lekhaka loga mu?e jabaradastï ghasa¶i le jåte rhai / dina bhara meº mereŸ påsa na jåne kitane bulåve uååte rhai / sabhå sosåi¶iyoº meº jåte uååte mu?e nïda bhara sone kï bhï chu¶¶ï nahï milatï / yadi rmai binå bu?åye bhï kahåiº jå pahu»catå dŸ» to bhï sammåna ke såtha sthåna påtå h÷» / (6) अब प्रदर्शित पाठ की नकल बनाने के लिए मेन्यू में रिकग्नाइज्ड टैक्स्ट में क्लिक करें व क्लिपबोर्ड चुनें. पाठ आपके क्लिपबोर्ड में नकल हो चुका है. (7) गूगल समूह के हिन्दी तकनीकी खंड के फाइल खंड में स्थित इस संस्कृत ओसीआर-यूनिकोड परिवर्तक फाइल को ब्राउजर में खोलें, व नकल किए पाठ को यूनिकोड में बदलने के लिए ऊपरी इनपुट बक्से में भरें तथा कनवर्ट टू यूनिकोड बटन को क्लिक करें. परिवर्तित पाठ कुछ ऐसा दिखेगा – यशोदानन्दन अस्वौरी आ8इत्यादि की आत्मकहानी 8आशब्द समाज र्मे मेरा सम्गान कुछ कम नही है / मेरा इतना उ?आदर इऐ_ कि वक्ता और लेखक लोग मु?ए जबरदस्ती घसटि ले जाते र्है / दिन भर में मेरेŸ पास न जाने कितने बुलावे आते र्है / सभा सोसाइटियों में जाते आते मु?ए नीद भर सोने की भी छुट्टी नही मिलती / यदि र्मै बिना बु?आये भी कहाइं जा पहुँचता द्Ÿँ तो भी सम्मान के साथ स्थान पाता हूँ (8) अब अंतिम चरण में, यूनिकोडित पाठ की त्रुटियाँ दूर करने हेतु इसे संपादित करें व काम में लें. ---. इसे प्रकाशित किया Raviratlami ने 5/19/2009 Share This!/दोस्तों को भेजें! FPRIVATE "TYPE=PICT;ALT=" विषय: तकनीकी, हिन्दी

11 टिप्पणियाँ./ अपनी प्रतिक्रिया लिखें: काजल कुमार Kajal Kumar said... 1 बहुत अच्छी खबर है, आभार.

हिमांशु । Himanshu said... 2 बहुत दिनों से प्रतीक्षित था यह । मैं तो केवल सोच सकता था, प्रार्थना कर सकता था, कि यह औजार भी विकसित हो । पहले से ही संस्कृत ओसीआर उपलब्ध है, जानता भी नहीं था । आज आपकी दी गयी कड़ियों से इसे संस्थापित भी किया और बताये तरीके से इसे संचालित भी करके देखा । ठीक-ठीक कर पाया हूँ, और वह पाठ युनिकोड में परिवर्तित भी कर लिया है । आपका, अनुनाद जी और नारायण जी का धन्यवाद ।

बालसुब्रमण्यम said... 3 बहुत उपयोगी जानकारी है। इसे प्रकाशित करने के लिए धन्यवाद। अब किसी हिंदी सोफ्टवेयर विशेषज्ञ को ऐसा कोई ओसीआर बनाने का प्रयास करना चाहिए जो सीधे नागरी लिपि में कन्वर्ट कर सके। सीडैक ने चित्रांकन नाम का ऐसा एक ओसीआर पैकेज बनाया है पर उसमें सुधार की काफी गुंजाइश है।

संजय बेंगाणी said... 4 जोरदार. मगर कम झंझट वाले के लिए काम करना चाहिए. शायद एच.पी. का ओसीआर भी है. पूरा पता नहीं.

anil said... 5 उपयोगी जानकारी देने के लिए धन्यवाद

Hapi said... 6 hello... hapi blogging... have a nice day! just visiting here....

डॉ दुर्गाप्रसाद अग्रवाल said... 7 रवि जी, आपने बहुत उम्दा जानकारी दी है. निश्चय ही इस तरह के प्रयत्नों से कम्प्यूटर की दुनिया में हिन्दी का प्रयोग बढ़ेगा.

महामंत्री - तस्लीम said... 8 अरे वाह, इसकी तो मुददत से तलाश थी। शुक्रिया। -Zakir Ali ‘Rajnish’ { Secretary-TSALIIM & SBAI }

अनुनाद सिंह said... 9 पिछले चार-पांच दिन से इन्टरनेट के सम्पर्क में नहीं आ पाया; इसलिये तेर से टिप्प्णी कर रहा हूँ।

आप द्वारा दी गयी जानकारी ने हिन्दी के लिये एक बहुत ही उपयोगी द्वार खोल दिया है। इसके पहले मैने एक-दो बार इसे काम में लेने की कोशिश की थी किन्तु कुछ समझ में नहीं आया था कि किस क्रम में क्या करना है और अन्त में निराश होकर छोड़ना पड़ा था।

आपका दिया हुआ विवरण् अपने आप में पूर्ण है किन्तु मै जानना चाहता हूं कि यदि पहले से स्कैन की हुई फाइल कोई फाइल उपलब्ध हो तो उसका ओसीआर किया जा सकता है या नहीं? यदि हाँ तो कैसे?


मुझे लगता है है कि इसके आगे हमें दो दिशाओं में कुछ और भी करना पड़ेगा। पहला, इसके निर्माताओं से निवेदन किया जाय कि यदि हो सके तो इसे मुक्त स्रोत करें। यदि नहीं तो कम से कम इसका इन्टरफेस हिन्दी में करें जिसके लिये आवश्यक सेवा हम लोग देंगें। यदि इसका स्रोत मिल जाय तो हममें से कुछ लोग इसे और आगे बढ़ा सकते हैं जिससे यह और शुद्ध पहचान करे।

दूसरे इसका सीधे यूनिकोड देवनागरी में परिवर्तन करने का विकल्प भी निवेदित किया जाय। तीसरे हम लोग इसके द्वारा उत्पन्न की गयी रोमन को देवनागरी में बदलने वाला प्रोग्राम को और बुद्धिमान बनाने की कोशिश करें ताकि हाथ से कम से कम संशोधम करने की आवश्यकता पड़े।

मुझे लगता है कि इसके निर्माता हमारे निवेदन पर सकारात्मक रहेंगे।

एकबार आपको पुन: साधुवाद।

प्रवीण त्रिवेदी...प्राइमरी का मास्टर said... 10 हिंदी चिट्ठाकारों का आर्थिक सर्वेक्षण में अपना सहयोग दें

हरिराम said... 11 सीडैक, मुम्बई में इस ओसीआर के विकास से जुड़ी एक भारतीय वैज्ञानिक से एकदा मुलाकात हुई थी। अभी इसका और विकास जारी है।

बाह्य दुवे[संपादन]

श्रेणी:भाषा में संगणन श्रेणी:कृत्रिम बुद्धि