विदा उत्खनन

विकिपीडिया, मुक्‍त ज्ञानकोशातून

विदा उत्खनन म्हणजे उपलब्ध विदा मधून योग्य ती माहिती शोधणे. यालाच इंग्रजीमध्ये डेटा मायनिंग अथवा डाटा मायनिंग असे म्हणतात. ही पूर्वापार चालत आलेली पद्धत आहे. परंतु याचे नामकरण बदलत आलेले आहे. जसे की प्राचीन भारतीय खगोल शास्त्रज्ञांनी ताऱ्यांपासून ग्रह गोल वेगळे आहेत हे शोधले. या मध्ये आधी तयार असलेल्या विदा मधून माहितीची पॅटर्नस शोधण्याचा प्रयत्न असतो. संगणक वापराने याच्या वेगात लक्षणीय फरक पडला आहे.

उपयोग[संपादन]

भूतकाळात घडलेल्या वर्तनातून पुढे काय घडू शकेल याचा अंदाज घ्यायलाही या तंत्राचा उपयोग होतो. उदाहरणार्थ उदा. एखाद्या आंतरजालावरील दुकानावरून वरून लोक वस्तू पाहतात. यातले सगळे घेतातच असे नाही, काही जण घेतातही. त्या दुकानाला भेट देणाऱ्या लोकांनी केलेले प्रत्येक क्लिक किंवा नोंदणी/ पाहाणी आणि त्यासंबंधीची माहिती गोळा केली जाते. हा वावर कसा होत आहे, हे गोळा केले जाते याचा अभ्यास केला जातो. त्याआधारे त्यांच्या वावराची काही विशिष्ट पद्धत आहे का हे शोधले जाते. ही वावराची पद्धत लक्षात आल्यावर आपल्या वेबसाईटवर आपण कशी मांडणी केली पाहिजे हे लक्षात येऊ शकते. त्याप्रमाणे बदल करून ग्राहकांना जास्तीत जास्त आकर्षित करायचा प्रयत्न केला जातो. इबे सारखी वेबसाईट वापरकर्ते काय खरेदी करतातची माहीती ठेवतात त्याच प्रमाणे त्याच वस्तु इतर कोण घेतात त्याच्यांशी तुलना करून वापरकर्त्याला आवडणाऱ्या गोष्टी सुचवल्या जातात. यामुळेच आपल्याला तेथे नेमक्या आपल्या मागच्या शोधाशी संबंधित गोष्टी पाहायला मिळतात. पण विदा उत्खननाचा हा एक प्रकार आहे. असे अनेक प्रकार यात आहेत. या साठी गणित आणि सांख्यिकी विषयांची जाण आवश्यक असते.

पद्धती[संपादन]

ह्या मध्ये बरयाच पद्धती आहेत.

  • क्लासिफिकेशन
  • क्लस्टरींग

आणि अश्या बरीच प्रकार आहेत

मार्केट सर्व्हे[संपादन]

अनेक संशोधक आणि संघटनांनी डेटा खाणकाम करणाऱ्या डेटा खाण साधनांचे सर्वेक्षण आणि सर्वेक्षण केले आहेत. सॉफ्टवेर पॅकेजेसमधील काही ताकद आणि कमकुवतपणा हे त्यास ओळखतात. ते डेटा खाणकामांचे व्यवहार, प्राधान्ये आणि दृश्यांबद्दलचे विहंगावलोकन देखील प्रदान करतात. यापैकी काही अहवालांमध्ये हे समाविष्ट आहे:

हर्विट्झ व्हिक्चर इंडेक्स: प्रगत विश्लेषणासाठी अहवाल बाजार संशोधन मूल्यांकनाची साधने म्हणून, हे प्रगत विश्लेषण तंत्रज्ञानाचे विविध उपयोग आणि विक्रेते जे हे अनुप्रयोग शक्य करतात ते हायलाइट करते. अलीकडील-संशोधन रेक्झर Analytics डेटा खाण कामगार सर्वेक्षण (2007-2015) [3 9] 2011 विले इंटरडिसीप्लिनिक पुनरावलोकने: डेटा खनन आणि ज्ञान डिस्कवरी [40] फॉरेस्टर रिसर्च 2010 प्रेरकटीक ॲनॅलिटिक्स व डेटा मायनिंग सोल्यूशन्स रिपोर्ट [41] गार्टनर 2008 "मॅजिक क्वाड्रंट" अहवाल [42] रॉबर्ट ए निस्बेटची 2006ची तीन भाग मालिकेतील लेख "डेटा खनन साधनेः सीआरएमसाठी कोणते सर्वोत्कृष्ट आहे?" [43] अमेरिकन स्टॅटिस्टीशियन [4 9] मध्ये डेटा मायनिंग सॉफ्टवेर पॅकेजेसच्या हॅगटन एट अल. Goebel & Gruenwald 1999 SIGKDD एक्सप्लोरेशन्समध्ये "डेटा स्किनिंग एक ज्ञान डिस्कवरी सॉफ्टवेअर उपकरणांचे सर्वेक्षण" [45]

माहितीची सुरक्षा[संपादन]

काही प्रकरणांमध्ये आणि संदर्भांमध्ये गोपनीयता, कायदेशीरपणा, आणि नैतिकतेबद्दल प्रश्न वाढवू शकतात. डेटा संकलित करण्यापूर्वी एक व्यक्तीला पुढील गोष्टीची जाणीव करून देणे आवश्यक आहे : [28]

  • डेटा संकलन आणि कोणत्याही (ज्ञात) डेटा खाण प्रकल्प उद्देश;
  • डेटा कसा वापरला जाईल;
  • कोण डेटा खाण आणि डेटा आणि त्यांच्या डेरिव्हेटिव्ह वापर करण्यास सक्षम असेल;
  • डेटा प्रवेश आसपासच्या सुरक्षा स्थिती;
  • गोळा केलेला डेटा कसा अद्ययावत केला जाऊ शकतो.

अनामित होण्यासाठी म्हणून डेटा देखील सुधारित केला जाऊ शकतो , जेणेकरून व्यक्ती सहजपणे ओळखू शकणार नाही तथापि, "अनोळखी" / "निनाविकृत" डेटा सेटांमध्ये संभाव्यतः व्यक्तींची ओळख पटविण्यासाठी पुरेशी माहिती असू शकते. प्रदात्याकडे जाणा-या व्यक्तिगत ओळखण्यायोग्य माहितीचे अनवधानाने प्रकट होणे उचित माहिती पद्धतींचे उल्लंघन करते. या चुकीमुळे सूचित झालेल्या व्यक्तीला आर्थिक, भावनिक किंवा शारीरिक नुकसान होऊ शकते. गोपनीयता उल्लंघनांच्या एका प्रसंगी, Walgreensच्या आश्रयदात्यांनी डेटा खनन कंपन्यांना प्रिस्क्रिप्शन माहिती विकण्यासाठी 2011 मध्ये कंपनी विरुद्ध खटला दाखल केला ज्यांनी नंतर डेटा फार्मास्युटिकल कंपन्यांना प्रदान केला. विशेषतः, डेटा खनन सरकारी किंवा राष्ट्रीय सुरक्षा किंवा कायद्याची अंमलबजावणी करण्याच्या उद्देशाने जसे की टोटल इन्फर्मेशन अवेअरनेस प्रोग्रॅम किंवा ADVISE साठी व्यावसायिक डेटा सेट्समुळे गोपनीयता चिंता वाढली आहे

नीतिमत्तेने उपयोग[संपादन]

जेव्हा डेटा संकलित केला जातो तेव्हा डाटा खाणकाम करणारा किंवा नवीन संकलित डेटा सेटवर प्रवेश करणाऱ्या कोणालाही विशिष्ट व्यक्तींची ओळख पटविण्यासाठी विशेषतः जेव्हा डेटा मूलतः अनामिक असतो तेव्हा वैयक्तिक गोपनीयतेला धोका येतो. गोपनीयता कायदे आहेत आणि ग्राहकांचे हक्क आणखी मजबूत करण्यासाठी प्रयत्न सुरू आहेत.

अधिक वाचन[संपादन]

  • भगत, फिरोज पॅटर्न रेकगनिशन इन इंडसट्री एल्सेविअर ISBN 0-08-044538-1
  • काबेना, पीटर, पाब्लो हज्नियन, रॉल्फ स्टाद्लर, जाप वेरहीस आणि अलेसांद्रो जनासी (1997) डिस्कवरिंग डाटा मायनिंग: फ्रॉम कोंसेप्त टु इम्प्लीमेंटेशन अप्रेंटिस हॉल, ISBN 0-13-743980-6
  • डमर, स्टीफन डब्ल्यू, फाल्स पोसिटिव अँड सिक्योर फ्लाइट युसिंग डाटाविलांस व्हेन व्युड थ्रू द एवर इन्क्रीसिंग लाइक्लीहुड ऑफ आईडेंटीटी थेफ्ट 11 जे. टेक. विधि आणि सिद्धांत 259 (2006).
  • डमर, स्टीफन डब्ल्यू, कॉमेन्ट: सिक्युअर फ्लाइट अँड डाटाविलांस, अ न्यू टाइप ऑफ सिविल लिबर्टीज इरोजन: स्ट्रिपिंग युअर राइट्स व्हेन यु डोन्ट इवेननो इट 75 MISS LJ 583 (2005).
  • फेल्ड्मन, रोनेन आणि जेम्स संगेर द टेक्स्ट मायनिंग हँडबुक कँम्ब्रिज यूनिवर्सिटी प्रेस, ISBN 978-0-521-83657-9.
  • गुओ, येक आणि रॉबर्ट ग्रॉसमैन, संपादक (1999) हाई परफोर्मेंस डाटा मायनिंग: स्केलिंग एल्गोरिदम, एप्लीकेशन अँड सिस्टम क्लुवेर अकादमिक प्रकाशक.
  • हस्ती, ट्रेवर, रॉबर्ट टिबशिरानी आणि जेरोम फ्रीडमन (2001). द एलिमेंट्स ऑफ स्टेटीस्टीकल लर्निंग: डाटा मायनिंग, इनफरेंस अँड प्रिडिकशन स्प्रिंगर, 0387952845 ISBN.
  • होर्निक, मार्क एफ, एरिक मर्काद आणि सुनील वेंकेला जावा डाटा मायनिंग: स्ट्रेटेजी, स्टेनडर्ड, अँड प्रॅक्टिस: अ प्रॅक्टिकल गाइड फॉर आर्कीटेक्चर, डिजाइन, अँड इम्प्लीमेनटेशन (Broché).
  • बिंग लियू (2007). वेब डाटा मायनिंग: एक्स्प्लोरिंग हाइपरलिंक्स कोंटेंट्स अँड यूसेज डाटा. स्प्रिंगर 3540378812 ISBN.
  • मिअरसवा, इंगो, मायकल वुर्स्त, राल्फ क्लिनकेंबर्ग, मार्टिन शोल्ज आणिटीम युलर (२००६) YALE: रॅपिड प्रोटोटाइपिंग फॉर कोम्प्लेक्स डाटा मायनिंग टास्क 12 वीं ACM SIGKDD ज्ञान डिस्कवरी आणि डाटा मायनिंग पर अंतर्राष्ट्रीय संमेलनाच्या सादरीकरणात (KDD-06).
  • निस्बेट, रॉबर्ट, जॉन एल्डर, गैरी माइनर, 'सांख्यिकीय विश्लेषण आणि डाटा मायनिंग अनुप्रयोग यांची पुस्तिका, अकैडमिक प्रेस / एल्सेविअर ISBN 978-0-12-374765-5 (२००९)
  • पोंसलेट, पास्कल, फ्लोरेंट मसेग्लिया आणि मागुलोन टेसेरे, संपादक (अक्टोबर २००७) डाटा मायनिंग पैटर्न: नए तरीके आणि अनुप्रयोग, सूचना विज्ञान संदर्भ, ISBN 978-1-59904-162-9.
  • पेंग-निंग टैन, माइकल स्टीनबख आणिविपिन कुमार, डाटा मायनिंग परिचय (२००५), ISBN 0-321-32136-7
  • वैंग, XZ; मेदसनी, एस; मरहून, एफ, अल बजाज, एच. (2004 मल्टीडायमेन्शनल विजुअलाइजेशन ऑफ प्रिंसिपल कॉम्पोनंट स्कोअर्स फॉर प्रोसेस हिस्टोरिकल डाटा अनॅलिसिस औद्योगिक अँड इंजीनियरिंग रसायन विज्ञान अनुसंधान, 43(22), pp. 7,036-7,048.
  • वैंग, XZ (1999) प्रक्रिया निगरानी आणि नियंत्रण के लिए डाटा मायनिंग आणि ज्ञान की खोज स्प्रिंगर, लंदन.
  • वाइस आणि इन्दुर्ख्या पूर्वानुमान डाटा मायनिंग, मॉर्गन कॉफमन
  • विटन, इयान आणि एइब फ्रैंक (2000) डाटा मायनिंग: प्रॅक्टिकल मशीन लर्निंग टूल्स अँड टेक्निक्स विथ जावा इम्प्लीमेनटेशन ISBN 1-55860-552-5


बाह्य दुवे[संपादन]

विकिमीडिया कॉमन्सवर संबंधित संचिका आहेत