आँकड़ा खनन अनुक्रम पृष्ठभूमि प्रक्रिया उल्लेखनीय उपयोग गोपनीयता चिंताएं और नैतिकता बाजार सर्वेक्षण समूह और संगठन इन्हें भी देखें सन्दर्भ अतिरिक्त पठन बाह्य संबंध दिक्चालन सूची"How Much Information"50055336The Data Mining Group (DMG)..PMML Project PagePMML: An Open Standard for Sharing ModelsProceedingsSIGKDD Explorations,5th (2009)4th (2008)3rd (2007)2nd (20061st (2005)IEEE International Conference on Data Mining: ICDM09ICDM09,ICDM08,ICDM07,ICDM06,ICDM05,ICDM04,ICDM03,ICDM02,ICDM01,"From Data Mining to Knowledge Discovery in Databases"224465825Mining IC Test Data to Optimize VLSI Testing Secure Flight Program report"Total/Terrorism Information Awareness (TIA): Is It Truly Dead?"63194770"The Promise and Pitfalls of Data Mining: Ethical Issues""The End of Illegal Domestic Spying? Don't Count on It""Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data"54678245263753"A Framework for Mining Instant Messaging Services"Think Before You Dig: Privacy Implications of Data Mining & Aggregation AOL search data identified individuals, Magic Quadrant for Customer Data-Mining Applications 2008 Data Miner Survey Summary ACM SIGKDD,Data Mining

डाटा माइनिंगडाटा विश्लेषणसामान्य विज्ञान


व्यवहारों की रूपरेखाविपणननिगरानीधोखाधड़ीसत्यापन और प्रमाणीकरणहैडाटाबाएस प्रमेयप्रतिगमन विश्लेषणडाटा सेटन्यूरल नेटवर्कक्लस्टरिंगडिसीज़न ट्रीसपोर्ट वेक्टर मशीनएकरेखस्तताचॉयस मॉडलिंगप्रयोगात्मक डिजाइनक्रॉस इंडस्ट्री स्टैनडर्ड प्रोसेस फॉर डाटा माइनिंगजावा डाटा माइनिंगRapidMinerR ProjectPMMLXMLआधारितएसोसिएशन फॉर कम्प्यूटिंग मशीनरीज़SIGKDDअकादमिक पत्रिकाडाटा वेयरहाउसफीचर वेक्टरओवरफाइटिंगपरीक्षण सेटप्रशिक्षण सेटROC कर्व्समिश्रित खेलोंऑरैक्कलटेबलबेसेसडॉट्स-एंड-बॉक्सेसबेरलेकंपशतरंजएंडगेम्सजॉन ननग्राहक संबंध प्रबंधनडाटा क्लस्टरिंगमार्केट बास्केट अनैलिसिससाहचर्य नियमनियमडाटाबेसमार्केट बास्केट अनैलिसिसअल्फा उपभोक्ताबायोइन्फोरमेटिक्सआनुवांशिकीचिकित्साशिक्षाविद्युत शक्तिDNAकैंसरमल्टीफैक्टर डाईमेंशनैलिटी रिडक्शनस्थिति निगरानीइन्सुलेशनडाटा क्लस्टरिंगसेल्फ-ओर्गनाइजिंग मैपविद्युत् ट्रांसफार्मरभंग गैस विश्लेषणविशेषज्ञता खोज प्रणालीसंस्थागत स्मृतिजैव चिकित्सायातायात विश्लेषणउप्साला निगरानी केन्द्रप्रतिकूल दवा प्रतिक्रियाइलेक्ट्रॉनिक स्वास्थ्य रिकार्डभौगोलिक सूचना प्रणालीकुल सूचना जागरूकताCAPPS IIADVISEमैट्रिक्सपैटर्नसंगत नियमराष्ट्रीय अनुसंधान परिषदसंगीत सूचना पुनःप्राप्तिराष्ट्रीय अनुसंधान परिषदकुल सूचना जागरूकताADVISE





डाटा माइनिंग डाटा से पैटर्न निकालने की प्रक्रिया है। चूंकि अधिक डाटा एकत्रित हो रहे हैं, जिसमें हर तीन वर्ष में डाटा की राशि दोगुना हो रही है,[1] डाटा माइनिंग इन डाटा को जानकारी में बदलने के लिए तेजी से महत्वपूर्ण उपकरण बनता जा रहा है। सामान्य रूप से इसे विस्तृत व्यवहारों की रूपरेखा बनाने में प्रयोग किया जाता है, जैसे विपणन, निगरानी, धोखाधड़ी पहचान और वैज्ञानिक खोज.


एक ओर जहां डाटा माइनिंग का प्रयोग डाटा नमूनों में पैटर्न को उजागर करने के लिए किया जा सकता है, यह जानना भी महत्वपूर्ण है कि डाटा के गैर-प्रतिनिधि नमूने का प्रयोग ऐसे परिणाम उत्पन्न कर सकता जो डोमेन के सूचक नहीं हैं। इसी तरह, डाटा माइनिंग उन पैटर्न का पता नहीं लगाएगा जो डोमेन में मौजूद हो सकते हैं, अगर वे पैटर्न उस नमूने में मौजूद नहीं हैं जिसकी "माइनिंग" हो रही है। परिणामों को लेकर अपर्याप्त जानकार "उपभोक्ताओं" में एक प्रवृत्ति है जो "डाटा माइनिंग" के लिए "जादुई क्षमता" देखते हैं और इस तकनीक को क्रिस्टल बॉल के समान बिलकुल साफ़ देखने के माध्यम के रूप में लेते हैं। किसी भी अन्य उपकरण की तरह, यह उचित कच्ची सामग्री के सहयोजन में ही कार्य करता है: इस मामले में सूचक और प्रतिनिधि डाटा जिसे उपयोगकर्ता द्वारा पहले जमा करना होगा. इसके अलावा, डाटा के एक विशेष सेट में एक खास पैटर्न की खोज जरूरी नहीं कि पैटर्न की उस पूरी आबादी का प्रतिनिधित्व करे जिससे डाटा लिया गया है। इसलिए, इस प्रक्रिया का एक महत्वपूर्ण हिस्सा है डाटा के अन्य नमूनों पर पैटर्न का सत्यापन और प्रमाणीकरणहै।


डाटा माइनिंग शब्द का एक संबंधित लेकिन नकारात्मक अर्थ में भी प्रयोग किया गया है, जहां यह बड़ी संख्या के डाटा में स्पष्ट लेकिन जरूरी नहीं प्रतिनिधि पैटर्न की सुविचारित खोज, को इंगित करता है। दूसरे भाव से भ्रम की स्थिति से बचने के लिए, डाटा ड्रेजिंग और डाटा स्नूपिंग पद का अक्सर इस्तेमाल किया जाता है। ध्यान दें, कि ड्रेजिंग (निकर्षण) और स्नूपिंग को (और कभी-कभी) जब परिकल्पना को विकसित और स्पष्ट किया जा रहा हो तो एक अन्वेषण के उपकरण के रूप में इस्तेमाल किया जा सकता है।




अनुक्रम





  • 1 पृष्ठभूमि

    • 1.1 अनुसंधान और विकास



  • 2 प्रक्रिया

    • 2.1 प्री-प्रोसेसिंग


    • 2.2 डाटा माइनिंग


    • 2.3 परिणाम सत्यापन



  • 3 उल्लेखनीय उपयोग

    • 3.1 खेल


    • 3.2 व्यावसाय


    • 3.3 विज्ञान और इंजीनियरी


    • 3.4 स्थानिक डाटा माइनिंग

      • 3.4.1 चुनौतियां



    • 3.5 निगरानी

      • 3.5.1 पैटर्न माइनिंग


      • 3.5.2 विषय आधारित डाटा माइनिंग




  • 4 गोपनीयता चिंताएं और नैतिकता


  • 5 बाजार सर्वेक्षण


  • 6 समूह और संगठन


  • 7 इन्हें भी देखें

    • 7.1 अनुप्रयोग


    • 7.2 विधियां


    • 7.3 विविध



  • 8 सन्दर्भ


  • 9 अतिरिक्त पठन


  • 10 बाह्य संबंध




पृष्ठभूमि


मनुष्य सदियों से "हाथों से" डाटा से पैटर्न निकालता रहा है, लेकिन आधुनिक समय में डाटा की बढ़ती मात्रा ने अधिक स्वचालित तरीकों को जरुरी बना दिया है। आंकड़ों में पैटर्न की पहचान के प्रारंभिक तरीकों में शामिल है बाएस प्रमेय (1700s) और प्रतिगमन विश्लेषण (1800s). कंप्यूटर प्रौद्योगिकी का प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने डाटा संग्रहण और भंडारण को बढ़ा दिया है। चूंकि डाटा सेट, आकार और जटिलता में बड़े हो गए हैं, प्रत्यक्ष वास्तविक रूप से आंकड़ों के विश्लेषण को तेजी से अप्रत्यक्ष, स्वचालित डाटा संसाधन के जरिये संवर्धित किया गया है। कंप्यूटर विज्ञान में अन्य खोजों द्वारा इसे और बढ़ावा मिला है, जैसे न्यूरल नेटवर्क, क्लस्टरिंग, जेनेटिक एल्गोरिदम (1950s), डिसीज़न ट्री (1960s) और सपोर्ट वेक्टर मशीन (1980s). डाटा माइनिंग, छिपे पैटर्न को उद्घाटित करने के इरादे से डाटा पर इन तरीकों को लागू करने की प्रक्रिया है।[2] कई वर्षों से इसका इस्तेमाल उद्योग, वैज्ञानिकों और सरकारों द्वारा आंकड़ों की मात्रा को छानने के लिए किया जाता रहा है जैसे विमान यात्री यात्रा रिकॉर्ड, जनगणना आंकड़े और बाज़ार अनुसंधान रिपोर्ट को उत्पन्न करने के लिए सुपरमार्केट स्कैनर डाटा. (तथापि, ध्यान दें, कि रिपोर्टिंग को हमेशा डाटा माइनिंग नहीं माना जाता है).


व्यवहार के निष्कर्षों के संग्रह के विश्लेषण में सहायता, डाटा माइनिंग के उपयोग का एक मुख्य कारण है। इस तरह के डाटा, अज्ञात अंतर्संबंध के कारण एकरेखस्तता के प्रति संवेदनशील होते हैं। डाटा माइनिंग का एक अपरिहार्य तथ्य यह है कि विश्लेषित किये जा रहे (उप) सेट के आंकड़े पूरे डोमेन के प्रतिनिधि नहीं भी हो सकते हैं और इसलिए हो सकता है कि इसमें कुछ महत्वपूर्ण संबंधों और व्यवहारों के उदाहरण शामिल ना हों जो डोमेन के अन्य भागों में मौजूद हैं। इस तरह की समस्या को सुलझाने के लिए, विश्लेषण को प्रयोग-आधारित और अन्य तरीकों के प्रयोग से, जैसे मानव जनित डाटा के लिए चॉयस मॉडलिंग सुलझाते हैं। इन स्थितियों में, अंतर्निहित अंतरसम्बन्ध को या तो नियंत्रित कर सकते हैं, या पूरी तरह हटा देते हैं, प्रयोगात्मक डिजाइन के निर्माण के दौरान.


डाटा माइनिंग के लिए मानक परिभाषित करने के लिए कुछ प्रयास हुए हैं, उदाहरण के लिए 1999 यूरोपीय क्रॉस इंडस्ट्री स्टैनडर्ड प्रोसेस फॉर डाटा माइनिंग (CRISP-DM 1.0) और 2004 जावा डाटा माइनिंग मानक (JDM 1.0). ये विकसित हो रहे मानक हैं; इन मानकों के बाद के संस्करण अभी विकास की प्रक्रिया के अधीन हैं। मानकीकरण के इन प्रयासों से मुक्त, खुले-स्रोत के स्वतंत्र रूप से उपलब्ध सॉफ्टवेयर सिस्टम जैसे RapidMiner, Weka, KNIME और R Project, डाटा माइनिंग प्रक्रियाओं को परिभाषित करने के लिए एक अनौपचारिक मानक बन गए हैं। इन प्रणालियों में अधिकांश, PMML (प्रीडिक्टिव मॉडल मार्कअप लेंग्वेज) में मॉडल आयात और निर्यात करने में सक्षम हैं जो डाटा माइनिंग मॉडल को प्रस्तुत करने के लिए एक मानक तरीका प्रदान करता है ताकि इन्हें अलग-अलग सांख्यिकीय अनुप्रयोगों के बीच साझा किया जा सके. PMML, डाटा माइनिंग ग्रुप (DMG)[3], कई डाटा माइनिंग कंपनियों का एक स्वतंत्र समूह, द्वारा विकसित एक XMLआधारित भाषा है। PMML संस्करण 4.0, 2009 जून में जारी हुआ।[3][4][5]



अनुसंधान और विकास


मानक और इंट्रोपरेबिलिटी की उद्योग प्रेरित मांग के अलावा, व्यावसायिक और शैक्षणिक गतिविधियों ने भी विधियों और मॉडल के विकास और परिशुद्धता के लिए काफी योगदान दिया है; इंटरनेशनल जर्नल ऑफ़ इन्फोर्मेशन टेक्नोलाजी एंड डिसीज़न मेकिंग के 2008 के अंक में प्रकाशित लेख, एक साहित्य सर्वेक्षण के परिणामों को संक्षिप्त करता है जो इस विकास की पहचान और विश्लेषण करता है।[6]


इस क्षेत्र में प्रमुख व्यावसायिक संगठन है एसोसिएशन फॉर कम्प्यूटिंग मशीनरीज़ स्पेशल इंटरेस्ट ग्रुप ऑन नॉलेज डिस्कवरी एंड डाटा माइनिंग (SIGKDD).[कृपया उद्धरण जोड़ें] 1989 से उन्होंने एक वार्षिक अंतरराष्ट्रीय सम्मेलन का आयोजन किया है और उसकी कार्यवाही को प्रकाशित किया है,[7] और 1999 के बाद से "SIGKDD Explorations" नामक एक अर्धवार्षिक अकादमिक पत्रिका प्रकाशित की है।[8] कंप्यूटर डाटा माइनिंग पर अन्य विज्ञान सम्मेलन में शामिल हैं:


  • DMIN - इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग;[9]

  • DMKD - रिसर्च इश्यूज ऑन डाटा माइनिंग एंड नॉलेज डिस्कवरी;

  • ECML-PKDD - [[यूरोपीयन कॉन्फरेंस ऑन मशीन लर्निंग एंड प्रिंसिपल्स एंड प्रैक्टिस ऑफ़ नॉलेज डिस्कवरी इन डाटाबेसेस;]]

  • ICDM - IEEE इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग;[10]

  • MLDM - मशीन लर्निंग एंड डाटा माइनिंग इन पैटर्न रिकगनिशन;

  • SDM - SIAM इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग


प्रक्रिया


नॉलेज डिस्कवरी इन डाटाबेसेस (KDD), दिलचस्प, विश्लेषित, उपयोगी और नवीन डाटा को खोजने की प्रक्रिया के वर्णन के लिए, 1989 में ग्रेगरी पियातेट्सकी-शपिरो द्वारा गढ़ा गया नाम था। इस प्रक्रिया में कई बारीकियां हैं, लेकिन मोटे तौर पर इसके चरण हैं कच्चे डाटा को प्रीप्रोसेस करना, डाटा को माइन करना और परिणामों की व्याख्या करना.[11]



प्री-प्रोसेसिंग


एक बार KDD प्रक्रिया का उद्देश्य ज्ञात होने के बाद, एक लक्ष्य डाटा सेट एकत्रित किया जाना चाहिए है। चूंकि डाटा माइनिंग केवल आंकड़ों में पहले से ही मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डाटा सेट इतना बड़ा होना चाहिए कि इसमें ये पैटर्न शामिल हों जबकि यह इतना संक्षिप्त हो कि एक स्वीकार्य समय सीमा में इसकी माइनिंग हो सके. आंकड़ों के लिए एक आम स्रोत एक डाटामार्ट या डाटा वेयरहाउस है।


निर्धारित लक्ष्य को तब साफ किया जाता है। सफाई, शोर और लापता डाटा के साथ टिप्पणियों को हटा देती है।


साफ डाटा को फीचर वेक्टर में परिणत किया जाता है, प्रति प्रेक्षण एक वेक्टर. एक फीचर वेक्टर, कच्चे डाटा प्रेक्षण का एक संक्षिप्त संस्करण है। उदाहरण के लिए, एक चेहरे की श्वेत और श्याम छवि जो 100px गुना 100px है उसमें 10,000 बिट्स कच्चे आंकड़े शामिल होंगे. छवि में आंख और मुंह का पता लगा कर इसे फीचर वेक्टर में बदला जा सकता है। ऐसा करने से प्रत्येक वेक्टर के लिए डाटा कम होकर 10,000 बिट्स से लोकेशंस के लिए तीन कोड होगा, नाटकीय रूप से माइन किये जाने वाले डाटासेट के आकार को कम करेगा और इस तरह प्रसंस्करण के कार्य को कम करेगा. चयनित फीचर इस पर निर्भर करेगा कि उद्देश्य क्या है (हैं); जाहिर है, "सही" फीचर (रों) का चुनाव सफल डाटा माइनिंग के लिए आधार है।


फीचर वैक्टर को दो सेट में विभाजित किया गया है, "प्रशिक्षण सेट" और "परीक्षण सेट". प्रशिक्षण सेट को डाटा माइनिंग एल्गोरिथ्म को प्रशिक्षित करने के लिए इस्तेमाल किया जाता है, जबकि परीक्षण सेट को किसी भी प्राप्त पेटर्न की सटीकता को सत्यापित करने के लिए किया जाता है।



डाटा माइनिंग


डाटा माइनिंग में सामान्य रूप से चार वर्गों के कार्य शामिल हैं:[11]



  • वर्गीकरण - पूर्वनिर्धारित समूहों में डाटा को व्यवस्थित करता है। उदाहरण के लिए, एक ईमेल प्रोग्राम एक ईमेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है। आम एल्गोरिदम में शामिल हैं डिसीज़न ट्री लर्निंग, निअरेस्ट नेबर, नाइव बाएसियन वर्गीकरण और न्यूरल नेटवर्क .


  • क्लस्टरिंग - वर्गीकरण की तरह है, लेकिन समूह पूर्वनिर्धारित नहीं होते हैं, तो एल्गोरिथ्म समान चीज़ों को समूहों में इकठ्ठा करने की कोशिश करेगा.


  • प्रतिगमन - एक कार्य को खोजने का प्रयास करता है जो कम से कम त्रुटि के साथ डाटा को मॉडल करे. एक आम तरीका जेनेटिक प्रोग्रामिंग का प्रयोग है।


  • एसोसिएशन रुल लर्निंग - चर के बीच संबंधों को खोजता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहकों की खरीददारी की आदतों पर डाटा इकट्ठा कर सकता है। एसोसिएशन रुल लर्निंग के प्रयोग से, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पादों को अक्सर एक साथ ख़रीदा जाता है और इस जानकारी का उपयोग विपणन प्रयोजनों के लिए कर सकता है। इसे कभी-कभी "मार्केट बास्केट अनैलिसिस" कहा जाता है।


परिणाम सत्यापन


डाटा से ज्ञान की खोज का अंतिम चरण है डाटा माइनिंग एल्गोरिदम द्वारा उत्पन्न पैटर्न को सत्यापित करना जो व्यापक डाटा सेट में होते हैं। डाटा माइनिंग एल्गोरिदम द्वारा पाए गए सभी पैटर्न जरूरी नहीं कि सही हों. डाटा माइनिंग एल्गोरिदम के लिए प्रशिक्षण सेट में पैटर्न का पता लगाना आम है जो सामान्य डाटा सेट में मौजूद नहीं हैं, इसे ओवरफाइटिंग कहा जाता है। इस पर काबू पाने के लिए, मूल्यांकन, डाटा के एक परीक्षण सेट का उपयोग करता है, जिसपर डाटा माइनिंग एल्गोरिथ्म प्रशिक्षित नहीं था। लर्न्ट पैटर्न को इस परीक्षण सेट पर लागू किया जाता है जिसके प्राप्त परिणाम को वांछित परिणाम से तुलना की जाती है। उदाहरण के लिए, एक डाटा माइनिंग एल्गोरिथ्म जो वैध ईमेल को स्पैम से अलग करने की कोशिश कर रहा है वह नमूने ईमेलों के प्रशिक्षण सेट पर प्रशिक्षित होगा. एक बार प्रशिक्षित होने के बाद, लर्न्ट पैटर्न को ईमेल के परीक्षण सेट पर लागू किया जाएगा जिसपर इसे प्रशिक्षित नहीं किया गया था, इन पैटर्न की सटीकता को, कितने ईमेल को उन्होंने सही ढंग से वर्गीकृत किया है, इस बात से मापा जा सकता है। एल्गोरिथ्म के मूल्यांकन के लिए कई सांख्यिकीय तरीकों का प्रयोग किया जा सकता है जैसे ROC कर्व्स.


यदि लर्न्ट पैटर्न वांछित मानकों को पूरा नहीं करते, तो पुनर्मूल्यांकन करना और प्रीप्रोसेसिंग और डाटा माइनिंग को बदलना आवश्यक है। यदि लर्न्ट पैटर्न वांछित मानकों को पूरा करते हैं तो अंतिम प्रक्रिया उन लर्न्ट पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है।



उल्लेखनीय उपयोग



खेल


1960 के दशक के प्रारंभ से, कुछ मिश्रित खेलों के लिए ऑरैक्कल की उपलब्धता के साथ, जिन्हें टेबलबेसेस (उदाहरण, 3x3-शतरंज) भी कहा जाता था, किसी भी शुरुआती विन्यास, छोटे बोर्ड डॉट्स-एंड-बॉक्सेस, छोटे बोर्ड हेक्स और शतरंज में कुछ एंडगेम्स, डॉट्स-एंड-बॉक्सेस और हेक्स; के साथ डाटा माइनिंग के लिए एक नया क्षेत्र खुल गया है। यह, इन ऑरैक्कल से मानव उपयोगी रणनीति का निष्कर्षण है। मौजूदा पैटर्न पहचान तरीकों के पास सफलतापूर्वक लागू किये जाने के लिए पृथक्करण का आवश्यक उच्च स्तर नहीं. इसके बजाय, अच्छी तरह से डिजाइन की गई समस्याओं के टेबलबेस उत्तर के गहन अध्ययन के संयोजन में, टेबलबेसेस के साथ व्यापक प्रयोग और पूर्व कला के ज्ञान, अर्थात पूर्व टेबलबेस ज्ञान के साथ, का प्रयोग व्यावहारिक पैटर्न उत्पन्न करने के लिए किया जाता है डॉट्स-एंड-बॉक्सेस आदि में बेरलेकंप और शतरंज एंडगेम्स में जॉन नन इस काम को कर रहे प्रमुख अनुसंधानकर्ताओं के उदाहरण हैं, हालांकि वे टेबलबेस जनन में शामिल नहीं है।



व्यावसाय


ग्राहक संबंध प्रबंधन अनुप्रयोगों में, डाटा माइनिंग निचली पंक्ति में काफी योगदान कर सकता है।[कृपया उद्धरण जोड़ें] एक संभावना या ग्राहक से बेतरतीब ढंग से एक कॉल सेंटर या मेल भेज कर संपर्क करने के बजाए, एक कंपनी अपने प्रयासों को संभावनाओं पर केंद्रित कर सकती है जिनके किसी प्रस्ताव के जवाब देने की एक उच्च संभावना है। अभियान में संसाधनों को अधिकतम इस्तेमाल करने के लिए अधिक परिष्कृत तरीके का प्रयोग किया जा सकता है ताकि यह भविष्यवाणी की जा सके कि एक व्यक्ति द्वारा कौन से चैनल और कौन सी पेशकश के प्रति उत्तर देने की अधिक संभावना है - सारे क्षमतावान उत्पादों में. इसके अतिरिक्त, मेलिंग को स्वचालित करने के लिए परिष्कृत अनुप्रयोगों का प्रयोग किया जा सकता है। डाटा माइनिंग (संभावित संभावना/ग्राहक और चैनल/पेशकश) से एक बार परिणाम निर्धारित हो जाने पर, यह "परिष्कृत अनुप्रयोग" स्वतः ही एक ई-मेल या नियमित मेल, दोनों भेज सकता है। अंत में, ऐसे मामलों में जहां बिना किसी प्रस्ताव के कई लोग एक प्रतिक्रिया करेंगे, अपलिफ्ट मॉडलिंग का प्रयोग यह निर्धारित करने के लिए किया जा सकता है कि एक प्रस्ताव देने पर किन लोगों की प्रतिक्रिया में सबसे ज्यादा वृद्धि होगी. डाटा क्लस्टरिंग का प्रयोग स्वचालित रूप से एक ग्राहक डाटा सेट के भीतर वर्ग या समूह की खोज के लिए किया जा सकता है।


डाटा माइनिंग को अपनाने वाले कारोबार एक वापसी या निवेश देख सकते हैं, लेकिन वे यह भी देखते हैं कि भविष्यसूचक मॉडलों की संख्या तेजी से बहुत बड़ी हो सकती है। कौन सा ग्राहक प्रतिक्रिया देगा यह बताने के लिए एक मॉडल के बजाय, एक उद्योग प्रत्येक क्षेत्र और ग्राहक प्रकार के लिए एक अलग मॉडल बना सकता है। तब प्रतिक्रिया देने वाले सभी सभावित लोगों के लिए एक प्रस्ताव भेजने के बजाय, वह केवल उन ग्राहकों को प्रस्ताव भेजना चाहेगा जो संभावित रूप से प्रस्ताव को लेने वाले हों. और अंत में, वह यह भी तय करना चाहेगा कि कौन से ग्राहक एक समय अवधि में लाभदायक होंगे और केवल उन्ही लोगों के लिए प्रस्ताव भेजेगा जिनके लाभदायक होने की संभावना है। मॉडल की इस मात्रा को बनाए रखने के लिए, उन्हें मॉडल संस्करण प्रबंधन और स्वचालित डाटा माइनिंग की तरफ बढ़ने की जरूरत है।


डाटा माइनिंग मानव संसाधन विभाग के लिए, अपने सबसे सफल कर्मचारियों की विशेषताओं की पहचान करने में भी उपयोगी हो सकते हैं। प्राप्त जानकारी, जैसे बेहद सफल कर्मचारियों द्वारा शिक्षा के लिए प्रयुक्त विश्वविद्याल, HR को तदनुसार भर्ती प्रयासों पर ध्यान केंद्रित करने में मदद कर सकता है। इसके अतिरिक्त, रणनीतिक उद्यम प्रबंधन अनुप्रयोग, एक कंपनी को कॉर्पोरेट स्टार के लक्ष्यों को अनुदित करने में मदद करते हैं, जैसे लाभ और मार्जिन शेयर लक्ष्य, परिचालन निर्णयों के अन्दर, जैसे उत्पादन योजनाएं और कार्यबल स्तर.[12]


डाटा माइनिंग का एक और उदाहरण, जिसे अक्सर मार्केट बास्केट अनैलिसिस कहा जाता है, खुदरा बिक्री में इसके उपयोग से संबंधित है। यदि एक कपड़े की दुकान, ग्राहकों की खरीद को दर्ज करती है, एक डाटा माइनिंग प्रणाली उन ग्राहकों को चिह्नित कर सकती है जो कपास की जगह सिल्क शर्ट को अधिक पसंद करते हैं। हालांकि संबंधों के कुछ स्पष्टीकरण मुश्किल हो सकते हैं, इसका लाभ लेना आसान है। यह उदाहरण, लेनदेन आधारित डाटा के भीतर साहचर्य नियम की चर्चा करता है। सभी डाटा लेनदेन आधारित और तार्किक या अयथार्थ नहीं हैं, नियम एक डाटाबेस के भीतर भी मौजूद हो सकता है। एक विनिर्माण अनुप्रयोग में, एक अयथार्थ नियम यह कह सकता है कि 73% उत्पाद जिनमें एक विशिष्ट दोष या समस्या है, उनमें अगले छह महीने के भीतर एक द्वितीयक समस्या भी पनपेगी.


मार्केट बास्केट अनैलिसिस का इस्तेमाल अल्फा उपभोक्ता की खरीददारी पैटर्न को पहचानने के लिए किया गया है। अल्फा उपभोक्ता, वे लोग हैं जो एक उत्पाद के पीछे की अवधारणा के साथ जोड़ने में महत्वपूर्ण भूमिका निभाते हैं, फिर उस उत्पाद को अपनाते हैं और अंत में बाकी समाज के लिए पुष्ट करते हैं। इन प्रकार के उपयोगकर्ताओं पर एकत्र आंकड़ों का विश्लेषण कंपनियों को भविष्य की खरीददारी के रुझान की भविष्यवाणी करने और आपूर्ति-मांग की भविष्यवाणी करने में सक्षम करते हैं।


डाटा माइनिंग, सूची विपणन उद्योग में एक अत्यंत प्रभावी उपकरण है। केटालॉगर के पास कई वर्षों का, लाखों ग्राहक पर ग्राहक लेनदेन का एक समृद्ध इतिहास है। डाटा माइनिंग उपकरण, ग्राहकों के बीच पैटर्न की पहचान कर सकते हैं और आगामी मेलिंग अभियान के प्रति प्रतिक्रिया देने वाले सबसे अधिक संभावित ग्राहकों की पहचान करने में मदद कर सकता है।


एक एकीकृत सर्किट उत्पादन लाइन से सम्बंधित, डाटा माइनिंग का एक उदाहरण पत्र में वर्णित है "माइनिंग IC टेस्ट डाटा टु ओप्टीमाइज़ VLSI टेस्टिंग."[13] इस पत्र में डाटा माइनिंग का अनुप्रयोग और डाई-लेवल कार्यात्मक परीक्षण समस्या का निर्णय विश्लेषण वर्णित है। इस पत्र में वर्णित प्रयोग डाई फेल्योर पैटर्न के एक संभाव्य मॉडल के निर्माण में, ऐतिहासिक डाई-लेवल डाटा माइनिंग को लागू करने की क्षमता को दर्शाते हैं जो उसके बाद वास्तविक माहौल में यह निर्णय करने में उपयोग किये जाते हैं कि किस डाई को अगली बार परीक्षण करना है और कब टेस्टिंग को रोक देना है। ऐतिहासिक परीक्षण डाटा के साथ प्रयोग के आधार पर, यह दिखाया गया है कि इस प्रणाली में परिपक्व IC उत्पादों पर लाभ बढ़ाने की क्षमता है।



विज्ञान और इंजीनियरी


हाल के वर्षों में, डाटा माइनिंग का प्रयोग व्यापक रूप से विज्ञान और इंजीनियरिंग के क्षेत्र में किया गया है जैसे बायोइन्फोरमेटिक्स, आनुवांशिकी, चिकित्सा, शिक्षा और विद्युत शक्ति इंजीनियरिंग.


मानव आनुवांशिकी पर अध्ययन के क्षेत्र में महत्वपूर्ण लक्ष्य, मानव के DNA अनुक्रम और बीमारी के प्रति संवेदनशीलता की परिवर्तनशीलता में वैयक्तिक भिन्नता के बीच सम्बन्ध को चित्रित करना है। सामान्य शब्दावली में, यह पता लगाना कि कैसे एक व्यक्ति के DNA अनुक्रम में परिवर्तन, आम रोगों जैसे कैंसर के विकास के जोखिम को प्रभावित करते हैं। यह निदान, रोकथाम तथा रोगों के उपचार में सुधार लाने में बहुत मदद करता है। डाटा माइनिंग तकनीक, जिसे इस कार्य के लिए प्रयोग किया जाता है उसे मल्टीफैक्टर डाईमेंशनैलिटी रिडक्शन के रूप में जाना जाता है।[14]


विद्युत् इंजीनियरिंग में, डाटा माइनिंग तकनीक का व्यापक रूप से उच्च वोल्टेज बिजली उपकरणों की स्थिति निगरानी के लिए इस्तेमाल किया जाता है। स्थिति निगरानी का प्रयोजन, इन्सुलेशन के उपकरणों की स्वास्थ्य स्थिति पर बहुमूल्य जानकारी प्राप्त करना है। डाटा क्लस्टरिंग जैसे सेल्फ-ओर्गनाइजिंग मैप (SOM), को कंपन निगरानी और ट्रांसफॉर्मर के ऑन लोड टैप-परिवर्तक (OLTCS) के विश्लेषण पर लागू किया गया है। कंपन निगरानी का प्रयोग कर के, यह देखा जा सकता है कि प्रत्येक टैप परिवर्तन संक्रिया एक संकेत उत्पन्न करती है जिसमें टैप परिवर्तक संपर्क और ड्राइव तंत्र की स्थिति के बारे में जानकारी शामिल होती है। जाहिर है, विभिन्न टैप स्थितियां अलग संकेत पैदा करेंगी. हालांकि बिलकुल समान टैप स्थिति के लिए, सामान्य स्थिति संकेतों के बीच, काफी परिवर्तनशीलता थी। SOM को असामान्य स्थितियों का पता लगाने और असामान्यताओं की प्रकृति का अनुमान लगाने के लिए लागू किया गया है।[15]


डाटा माइनिंग तकनीक को विद्युत् ट्रांसफार्मर पर भंग गैस विश्लेषण (DGA) के लिए लागू किया गया है। विद्युत् ट्रांसफार्मर के लिए एक निदान के रूप में DGA, कई वर्षों से उपलब्ध है। डाटा माइनिंग तकनीक, जैसे की SOM को, डाटा विश्लेषण और रुझानों को निर्धारित करने के लिए लागू किया जाता है जो डुवल ट्रायंगल जैसी मानक DGA अनुपात तकनीकों को स्पष्ट नहीं हैं।[15]


विज्ञान/इंजीनियरिंग के क्षेत्र में डाटा माइनिंग के प्रयोग का एक चौथा क्षेत्र है शैक्षिक अनुसंधान, जहां डाटा माइनिंग का प्रयोग उन प्रमुख कारकों का अध्ययन करने के लिए किया जाता है जो छात्रों को ऐसे व्यवहार के चुनाव के लिए प्रेरित करते हैं जो उनके अध्ययन को घटाती हैं[16] और उन कारकों को समझना जो विश्वविद्यालय के छात्र प्रतिधारण को प्रभावित करती हैं।[17]. डाटा माइनिंग के सामाजिक अनुप्रयोग का एक ऐसा ही उदाहरण है, विशेषज्ञता खोज प्रणाली में इसका उपयोग, जिसके तहत मानव विशेषज्ञता के विवर्णक निकाले जाते हैं, सामान्य किये जाते हैं और वर्गीकृत किये जाते हैं ताकि विशेषज्ञों की खोज को सुविधाजनक बनाया जा सके, विशेष रूप से वैज्ञानिक और तकनीकी क्षेत्रों में. इस तरह से, डाटा माइनिंग संस्थागत स्मृति में मदद कर सकते हैं।


डाटा माइनिंग तकनीक के अनुप्रयोग को लागू करने के अन्य उदाहरण हैं डोमेन ओंटोलोजीस द्वारा सरलीकृत जैव चिकित्सा डाटा,[18] चिकित्सीय परीक्षण डाटा माइनिंग,[19] SOM के प्रयोग से यातायात विश्लेषण,[20] वगैरह.


प्रतिकूल दवा प्रतिक्रिया निगरानी में उप्साला निगरानी केन्द्र ने, 1998 से 4.6 मीलियन संदिग्ध प्रतिकूल दवा प्रतिक्रिया घटनाओं के WHO के वैश्विक डाटाबेस में उभरते सुरक्षित दवा मुद्दों पर नियमित रूप से डाटा माइनिंग तरीकों के प्रयोग से पैटर्न की रिपोर्टिंग की है। हाल ही में, ऐसे ही दवाओं के नुस्खे सम्बंधित चिकित्सा निदान[21] के अस्थायी पैटर्न के लिए इलेक्ट्रॉनिक स्वास्थ्य रिकार्ड के विशाल संग्रह को माइन करने के लिए समान प्रक्रिया विकसित की गई है।[21]



स्थानिक डाटा माइनिंग


स्थानिक डाटा माइनिंग, स्थानिक डाटा पर डाटा माइनिंग तकनीक का अनुप्रयोग है। स्थानिक डाटा माइनिंग, डाटा माइनिंग में समान प्रक्रियाओं का पालन करते हैं, जहां इनका अंतिम उद्देश्य होता है भूगोल में पैटर्न पता करना. अब तक, डाटा माइनिंग और भौगोलिक सूचना प्रणाली (GIS) का, दो अलग प्रौद्योगिकी के रूप में अस्तित्व रहा है, दोनों ही अपनी अलग परंपराओं, तरीकों और विजुअलाइजेशन और डाटा विश्लेषण के प्रति अपने दृष्टिकोण के साथ रहे हैं। विशेष रूप से, सबसे समकालीन GIS में बहुत बुनियादी स्थानिक विश्लेषण कार्यशीलता है। IT विकास के कारण हुए भौगोलिक दृष्टि से संदर्भित डाटा में भारी विस्फोट, डिजिटल मैपिंग, दूरसंवेदी आंकड़े और GIS का वैश्विक प्रसार, भौगोलिक विश्लेषण और मॉडलिंग के लिए डाटा संचालित आगमनात्‍मक दृष्टिकोण के विकास के महत्व पर जोर देता है।


डाटा माइनिंग, जो विशाल डाटाबेस में छिपे पैटर्न के लिए आंशिक रूप से स्वचालित खोज है, व्यावहारिक GIS-आधारित निर्णय प्रक्रिया के लिए अत्यधिक क्षमतावान लाभ प्रदान करता है। हाल ही में, इन दोनों प्रौद्योगिकियों को एकीकृत करने का कार्य महत्वपूर्ण हो गया है, विशेष रूप से विभिन्न सार्वजनिक और निजी क्षेत्र के संगठन जिनके पास विषयगत और भौगोलिक दृष्टि से संदर्भित डाटा सहित विशाल डाटाबेस है, वहां छिपी सूचना की प्रचंड क्षमता का एहसास करना शुरू किया है। उन संगठनों में से हैं:


  • विश्लेषण या भू-संदर्भित सांख्यिकीय डाटा के प्रसार की आवश्यकता वाले कार्यालय

  • सार्वजनिक स्वास्थ्य सेवाएं जिन्हें बीमारी समूहों के स्पष्टीकरण की खोज है

  • पर्यावरण एजेंसियां जो जलवायु परिवर्तन पर भूमि प्रयोग की बदलती पद्धति का असर का मूल्यांकन कर रहे हैं

  • भू-विपणन कंपनियां जो स्थानिक अवस्थिति के आधार पर ग्राहक विभाजन कर रही हैं


चुनौतियां

भूस्थानिक डाटा भण्डार बहुत विशाल होता है। इसके अलावा, मौजूदा GIS डाटासेट, अक्सर फीचर और विशेषता घटकों में बंटे होते हैं, जो पारंपरिक रूप से संकर डाटा प्रबंधन प्रणालियों में संग्रहीत होते हैं। एल्गोरिथम आवश्यकताएं, संबंधपरक (विशेषता) डाटा प्रबंधन और टोपोलोजिकल (फीचर) डाटा प्रबंधन के लिए काफी अलग होती हैं।[22] इस से संबंधित है भौगोलिक डाटा प्रारूप की विविधता और रेंज, जो अद्वितीय चुनौतियां भी प्रस्तुत करता है। डिजिटल भौगोलिक डाटा क्रांति, पारंपरिक "वेक्टर" और "रास्टर" स्वरूप के परे एक नए प्रकार के डाटा फोर्मेट को निर्मित कर रही है। भौगोलिक डाटा भंडार में तेज़ी से खराब संरचित डाटा, जैसे कल्पनिक चित्र और भू संदर्भित मल्टी-मीडिया शामिल हो रहें हैं।


भौगोलिक ज्ञान खोज और डाटा माइनिंग में कई महत्वपूर्ण अनुसंधान चुनौतियां हैं। मिलर और हान[23] इस क्षेत्र में उभरते अनुसंधान विषयों की निम्नलिखित सूची प्रदान करते हैं:



  • भौगोलिक डाटा भण्डार का विकास और समर्थन - स्थानिक गुणों को अक्सर मुख्य धारा डाटा भंडारों में सरल अस्थानिक गुणों में सीमित कर दिया जाता है। एक एकीकृत GDW के निर्माण में, स्थानिक और अस्थाई डाटा इंट्रोपरेबिलिटी के मुद्दों को सुलझाने की आवश्यकता होती है, सिमेंटिक, संदर्भित प्रणाली, ज्यामिति, सटीकता और स्थिति में मतभेद सहित.


  • भौगोलिक ज्ञान खोज में बेहतर स्थानिक-अस्थाई निरूपण - वर्तमान भौगोलिक ज्ञान खोज (GKD) तकनीक आमतौर पर भौगोलिक वस्तुओं और स्थानिक रिश्तों का बहुत सरल प्रतिवेदनों का उपयोग करती हैं। भौगोलिक डाटा माइनिंग तकनीकों को और अधिक जटिल भौगोलिक वस्तुओं (लाइनें और बहुभुज) और रिश्तों (भौगोलिक स्थान जैसे भू भाग के माध्यम से गैर इयूक्लिडियन दूरी, दिशा, संपर्क और मेल). समय को इन भौगोलिक प्रतिवेदनों और संबंधों में और अधिक पूरी तरह से एकीकृत किया जाना चाहिए.


  • विविध प्रकार के डाटा के उपयोग से भौगोलिक ज्ञान खोज - ऐसी GKD तकनीक को विकसित करना चाहिए जो पारंपरिक रास्टर और वेक्टर मॉडल से परे विभिन्न प्रकार के डाटा को संभाल सके, जिसमें शामिल है काल्पनिक चित्र और भू-संदर्भित मल्टीमीडिया, साथ ही साथ गतिशील डाटा प्रकार (वीडियो धारा, एनिमेशन).


निगरानी


अमेरिकी सरकार के तहत आतंकवादी कार्यक्रम रोकने के लिए पूर्व की डाटा माइनिंग में शामिल हैं कुल सूचना जागरूकता (TIA) कार्यक्रम, सुरक्षित उड़ान (पूर्व में कंप्यूटर-एसिसटेड पैसेंजर प्रीस्क्रीनिंग सिस्टम (CAPPS II) विश्लेषण, प्रसार, विज़ुअलाइज़ेशन, इनसाइट, अर्थ संवर्धन (ADVISE)[24] और मल्टीस्टेट एंटी-टेरोरिज़म इन्फोर्मेशन एक्सचेंज (मैट्रिक्स)[25] इन प्रोग्रामों को, अमेरिकी संविधान के चौथे संशोधन का उल्लंघन करने के विवाद के कारण बंद कर दिया गया, हालांकि उनके तहत गठित कई कार्यक्रमों को विभिन्न संगठनों, या विभिन्न नामों के तहत पैसा मिलना जारी रहा.[26]


आतंकवाद का मुकाबला करने के सन्दर्भ में दो संभावित डाटा माइनिंग तकनीक हैं "पैटर्न माइनिंग" और "सब्जेक्ट बेस्ड डाटा माइनिंग".



पैटर्न माइनिंग

"पैटर्न माइनिंग" एक डाटा माइनिंग तकनीक है जिसमें डाटा में पहले से मौजूद पैटर्न की खोज शामिल है। इस संदर्भ में पैटर्न का अर्थ अक्सर संगत नियम होता है। संगत नियमों के खोज के लिए मूल प्रेरणा, सुपरमार्केट लेनदेन डाटा के विश्लेषण की इच्छा से आई, अर्थात, खरीदे गए उत्पादों के मामले में ग्राहक के व्यवहार की जांच. उदाहरण के लिए, एक संगत नियम "बियर => क्रिस्प्स (80%)" यह कहता है कि पांच ग्राहकों में से जिन चार ने बियर खरीदा उन्होंने क्रिस्प्स भी खरीदा.


आतंकवादी गतिविधि की पहचान के एक उपकरण के रूप में पैटर्न माइनिंग के संदर्भ में, राष्ट्रीय अनुसंधान परिषद निम्नलिखित परिभाषा प्रदान करता है: "पैटर्न आधारित डाटा माइनिंग पैटर्न खोजता है (विषम डाटा पैटर्न सहित) जो हो सकता है कि आतंकवादी गतिविधियों से जुड़ा हो - इन पैटर्न को शोर के महासागर में एक छोटा संकेत माना जा सकता है।"[27][28][29] पैटर्न माइनिंग में नए क्षेत्र शामिल हैं जैसे एक संगीत सूचना पुनःप्राप्ति (MIR) जहां अस्थाई और गैर अस्थाई, दोनों डोमेन में देखे जाने वाले पैटर्न शास्त्रीय ज्ञान खोज के लिए तलाश तकनीक में आयात किये जाते हैं।



विषय आधारित डाटा माइनिंग

"विषय आधारित डाटा माइनिंग", एक डाटा माइनिंग तकनीक है जिसमें डाटा में व्यक्तियों के बीच साहचर्य की खोज शामिल है। आतंकवाद से लड़ने के संदर्भ में, राष्ट्रीय अनुसंधान परिषद निम्नलिखित परिभाषा प्रदान करता है: "विषय आधारित डाटा माइनिंग शुरुआत करने वाले एक व्यक्ति या अन्य तथ्य का उपयोग करता है जो, अन्य जानकारी पर आधारित, उच्च उपयोगिता वाला माना जाता है और लक्ष्य, यह निर्धारित करना होता है कि उस शुरुआत करने वाले आंकड़ों से कौन से अन्य व्यक्ति या वित्तीय लेनदेन या आंदोलन, आदि, संबंधित हैं।"[28]



गोपनीयता चिंताएं और नैतिकता


कुछ लोगों का मानना है कि डाटा माइनिंग खुद ही नैतिकता की दृष्टि से तटस्थ है।[30] तथापि, जिन तरीकों से डाटा माइनिंग का प्रयोग किया जा सकता है वे गोपनीयता, वैधता और नैतिकता के सवाल उठा सकते हैं।[31] विशेष रूप से, डाटा माइनिंग सरकार या राष्ट्रीय सुरक्षा या कानून प्रवर्तन प्रयोजनों के लिए जैसे कुल सूचना जागरूकता कार्यक्रम या ADVISE में, व्यावसायिक डाटा सेट ने गोपनीयता सम्बंधित चिंताओं को बढ़ाया है।[32][33]


डाटा माइनिंग को डाटा रचना की आवश्यकता होती है जो उन जानकारीयों या पैटर्न को उजागर कर सकता है जो गोपनीयता और निजता नियमों से समझौता कर सकते हैं। ऐसी घटना के होने का एक आम तरीका है डाटा एकत्रीकरण के माध्यम से. डाटा एकत्रिकरण तब है जब डाटा एकत्रित किया जाता है, संभवतः विभिन्न स्रोतों से और एक साथ रखा जाता है ताकि विश्लेषण किया जा सके.[34] यह स्वतः डाटा माइनिंग नहीं है, लेकिन विश्लेषण के प्रयोजनों के लिए और के पहले डाटा की तैयारी का एक परिणाम है। एक व्यक्ति की गोपनीयता को खतरा तब होने लगता है जब डाटा, एक बार संकलित होने के बाद, डाटा माइन करने वाले को या किसी को भी जिसकी पहुंच नए संकलित डाटा सेट तक है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम बनाती है, विशेष रूप से जब मूलतः डाटा गुमनाम थे।


यह अनुशंसा की जाती है कि एक व्यक्ति को, डाटा के एकत्र करने से पहले निम्नलिखित के बारे में अवगत कराना चाहिए:


  • डाटा संग्रह के उद्देश्य और कोई भी डाटा माइनिंग परियोजना,

  • डाटा का उपयोग कैसे किया जाएगा,

  • डाटा को माइन करने में और उन्हें इस्तेमाल करने में कौन योग्य होगा

  • डाटा तक पहुंच की सुरक्षा और इसके अतिरिक्त,

  • एकत्रित डाटा कैसे नवीनीकृत किया जा सकता है[34]

कोई व्यक्ति अतिरिक्त रूप से, डाटा को इतना संशोधित कर सकता है कि वे गुमनाम हो जाएं, ताकि लोगों को आसानी से नहीं पहचाना जा सके.[34] हालांकि, यहां तक की गैर-चिह्नित डाटा सेट में किसी व्यक्ति की पहचान करने के लिए पर्याप्त जानकारी हो सकती है, जैसा तब हुआ, जब अनजाने में AOL द्वारा जारी किए गए खोज इतिहास के एक सेट के आधार पर पत्रकार कई लोगों को ढूंढने में सक्षम हो गए।[35][35]



बाजार सर्वेक्षण


हर साल कई संगठन, बाजार सर्वेक्षण करते हैं और वर्तमान डाटा माइनिंग बाज़ार आवश्यकताओं की रिपोर्ट प्रस्तुत करते हैं और उन उपकरणों और विक्रेताओं की तुलना जो उन्हें मुहैय्या करा रहे हैं। इन वार्षिक रिपोर्ट में कुछ शामिल हैं:



  • द गार्टनर "मैजिक क्वाड्रन्ट" रिपोर्ट.[36]

  • द रेक्सर एनालिटिक रिपोर्ट.[37]


समूह और संगठन



  • SIGKDD, ACM स्पेशल इंटरेस्ट ग्रुप ऑन नॉलेज डिस्कवरी एंड डाटा माइनिंग.


इन्हें भी देखें



अनुप्रयोग




  • Surveillance / Mass surveillance

  • National Security Agency

  • Quantitative structure-activity relationship

  • Customer analytics

  • Police-enforced ANPR in the UK

  • Stellar wind (code name)



विधियां



  • Association rule learning

  • Cluster analysis

  • Structured data analysis (statistics)

  • Screen scraping

  • Java Data Mining

  • Data analysis

  • Predictive analytics

  • Knowledge discovery



विविध



  • Data warehouse

  • PMML


डाटा माइनिंग, डाटा के विश्लेषण के बारे में है, डाटा से जानकारी निकालने के बारे में जानकारी के लिए, देखें:



  • Information extraction

  • Named entity recognition

  • Profiling


  • व्यवहार रूपरेखा


सन्दर्भ




  1. Lyman, Peter; Hal R. Varian (2003). "How Much Information". अभिगमन तिथि 2008-12-17..mw-parser-output cite.citationfont-style:inherit.mw-parser-output qquotes:"""""""'""'".mw-parser-output code.cs1-codecolor:inherit;background:inherit;border:inherit;padding:inherit.mw-parser-output .cs1-lock-free abackground:url("//upload.wikimedia.org/wikipedia/commons/thumb/6/65/Lock-green.svg/9px-Lock-green.svg.png")no-repeat;background-position:right .1em center.mw-parser-output .cs1-lock-limited a,.mw-parser-output .cs1-lock-registration abackground:url("//upload.wikimedia.org/wikipedia/commons/thumb/d/d6/Lock-gray-alt-2.svg/9px-Lock-gray-alt-2.svg.png")no-repeat;background-position:right .1em center.mw-parser-output .cs1-lock-subscription abackground:url("//upload.wikimedia.org/wikipedia/commons/thumb/a/aa/Lock-red-alt-2.svg/9px-Lock-red-alt-2.svg.png")no-repeat;background-position:right .1em center.mw-parser-output .cs1-subscription,.mw-parser-output .cs1-registrationcolor:#555.mw-parser-output .cs1-subscription span,.mw-parser-output .cs1-registration spanborder-bottom:1px dotted;cursor:help.mw-parser-output .cs1-hidden-errordisplay:none;font-size:100%.mw-parser-output .cs1-visible-errorfont-size:100%.mw-parser-output .cs1-subscription,.mw-parser-output .cs1-registration,.mw-parser-output .cs1-formatfont-size:95%.mw-parser-output .cs1-kern-left,.mw-parser-output .cs1-kern-wl-leftpadding-left:0.2em.mw-parser-output .cs1-kern-right,.mw-parser-output .cs1-kern-wl-rightpadding-right:0.2em


  2. Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons. OCLC 50055336. आई॰ऍस॰बी॰ऍन॰ 0471228524.


  3. The Data Mining Group (DMG).. DMG एक स्वतंत्र, विक्रेता प्रधान समूह है जो डाटा माइनिंग मानक विकसित करता है, जैसे प्रिडीक्टीव मॉडल मार्कअप लेंग्वेज (PMML)


  4. PMML Project Page


  5. एलेक्स गुअज़ेली, माइकल जेलर, वेन-चिंग लिन, ग्राहम विलियम्स. PMML: An Open Standard for Sharing Models द आर जर्नल Vol 1/1, मई 2009.


  6. साँचा:Cite Journal


  7. Proceedings अंतर्राष्ट्रीय ज्ञान डिस्कवरी और डाटा माइनिंग, ACM, न्यूयॉर्क के सम्मेलन पर.


  8. SIGKDD Explorations, ACM, न्यूयॉर्क.


  9. इंटरनेशनल डाटा माइनिंग पर सम्मेलन: 5th (2009); 4th (2008); 3rd (2007); 2nd (2006); 1st (2005)


  10. IEEE International Conference on Data Mining: ICDM09 ICDM09, मियामी, FL; ICDM08, पीसा (इटली); ICDM07, ओमाहा, पूर्वोत्तर, ICDM06, हांगकांग, ICDM05, ह्यूस्टन, TX; ICDM04, Brighton (ब्रिटेन); ICDM03, मेलबोर्न, FL; ICDM02, माएबाशी सिटी (जापान); ICDM01, सैन जोस, CA.


  11. Fayyad, Usama; Gregory Piatetsky-Shapiro, and Padhraic Smyth (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF). अभिगमन तिथि 2008-12-17.


  12. Ellen Monk, Bret Wagner (2006). Concepts in Enterprise Resource Planning, Second Edition. Thomson Course Technology, Boston, MA. OCLC 224465825. आई॰ऍस॰बी॰ऍन॰ 0-619-21663-8.


  13. टोनी फाउन्टेन, थॉमस डिटरिश और बिल सुदिका (2000) Mining IC Test Data to Optimize VLSI Testing छठी ACM SIGKDD ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में. (pp. 18-25). ACM प्रेस.


  14. Xingquan Zhu, Ian Davidson (2007). Knowledge Discovery and Data Mining: Challenges and Realities. Hershey, New Your. पृ॰ 18. आई॰ऍस॰बी॰ऍन॰ 978-159904252-7.


  15. साँचा:Cite Journal


  16. साँचा:Cite Journal


  17. साँचा:Cite Journal


  18. Xingquan Zhu, Ian Davidson (2007). Knowledge Discovery and Data Mining: Challenges and Realities. Hershey, New York. पपृ॰ 163–189. आई॰ऍस॰बी॰ऍन॰ 978-159904252-7.


  19. ibid पीपी. 31-48.


  20. साँचा:Cite Journal


  21. नोरेन GN, बेट ए, होपस्तदिअस J, स्टार K, एडवर्ड IR. टेम्पोरल पैटर्न डिस्कवरी एंड ट्रेंड्स एंड ट्रांसीएंट इफेक्ट: इट्स एप्लीकेशन टु पेशेंट रिकॉर्ड्स. चौदहवें ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही SIGKDD 2008, पृष्ठ 963-971 लास वेगास NV, 2008.


  22. हेले, आर, 1991, डाटाबेस प्रबंधन प्रणालियां. इन मेग्वर, डी, गुडचाइल्ड, MF और रिंड, डी, (eds.), भौगोलिक सूचना प्रणाली: सिद्धांत और अनुप्रयोग (लंदन: Longman).


  23. मिलर, एच. और हान, जे, (eds.), 2001, भौगोलिक डाटा माइनिंग और ज्ञान डिस्कवरी, (लंदन: टेलर और फ्रांसिस).


  24. सरकार जवाबदेही कार्यालय, डाटा माइनिंग: अर्ली अटेंशन टु प्राइवेसी इन डेवलपिंग अ की DHS प्रोग्राम कुड रिड्यूस रिस्क गाओ-07-293, वाशिंगटन, डीसी: फरवरी, 2007


  25. Secure Flight Program report MSNBC.


  26. "Total/Terrorism Information Awareness (TIA): Is It Truly Dead?". Electronic Frontier Foundation (official website). 2003. अभिगमन तिथि 2009-03-15.


  27. आर अग्रवाल अन्य., फास्ट डिस्कवरी ऑफ़ असोसीएशन रूल्स इन अडवांसेस इन नॉलेज डिस्कवरी एंड डाटा माइनिंग पीपी. 307-328, MIT प्रेस, 1996.


  28. राष्ट्रीय अनुसंधान परिषद, आतंकवादियों के खिलाफ संघर्ष में व्यक्तिगत गोपनीयता की रक्षा: कार्यक्रम के आकलन के लिए एक फ्रेमवर्क वाशिंगटन, DC राष्ट्रीय अकादमियों प्रेस, 2008.


  29. Stephen Haag; एवं अन्य (2006). Management Information Systems for the information age. Toronto: McGraw-Hill Ryerson. पृ॰ 28. OCLC 63194770. आई॰ऍस॰बी॰ऍन॰ 0-07-095569-7.सीएस1 रखरखाव: Explicit use of et al. (link)


  30. William Seltzer. "The Promise and Pitfalls of Data Mining: Ethical Issues" (PDF).


  31. Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Washington Spectator.


  32. K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Columbia Science and Technology Law Review. 5 (2). SSRN 546782 / OCLC 45263753.


  33. John Resig, Ankur Teredesai (2004). "A Framework for Mining Instant Messaging Services". In Proceedings of the 2004 SIAM DM Conference.


  34. Think Before You Dig: Privacy Implications of Data Mining & Aggregation NASCIO अनुसंधान ब्रीफ, सितम्बर, 2004


  35. AOL search data identified individuals, सिक्योरिटीफोकस, अगस्त, 2006


  36. गैरेथ हर्शेल (1 जुलाई 2008) Magic Quadrant for Customer Data-Mining Applications गार्टनर इंक


  37. कार्ल रेक्सार, पॉल गिअरन और हीदर एलन (2008) 2008 Data Miner Survey Summary SPSS डाईरेकशन सम्मेलन, 2008 अक्टूबर और Oracle BIWA शिखर सम्मेलन, 2008 नवम्बर



अतिरिक्त पठन


  • भगत, फिरोज़ पैटर्न रिकोगनिशन इन इंडसट्री एल्सेविअर ISBN 0-08-044538-1

  • काबेना, पीटर, पाब्लो हज्नियन, रॉल्फ स्टाद्लर, जाप वेरहीस और अलेसांद्रो ज़नासी (1997) डिस्कवरिंग डाटा माइनिंग: फ्रॉम कोंसेप्त टु इम्प्लीमेंटेशन अप्रेंटिस हॉल, ISBN 0-13-743980-6

  • डमर, स्टीफन डब्ल्यू, फाल्स पोसिटिव एंड सिक्योर फ्लाईट युसिंग डाटाविलांस व्हेन व्युड थ्रू द एवर इन्क्रीसिंग लाइक्लीहुड ऑफ़ आईडेनटीटी थेफ्ट 11 जे. टेक. विधि और सिद्धांत 259 (2006).

  • डमर, स्टीफन डब्ल्यू, कमेन्ट: सिक्योर फ्लाईट एंड डाटाविलांस, अ न्यू टैप ऑफ़ सिविल लिबर्टीज इरोज़न: स्ट्रिपिंग योर राइट्स व्हेन यु डोन्ट इवेन नो इट 75 MISS LJ 583 (2005).

  • फेल्ड्मन, रोनेन और जेम्स संगेर द टेक्स्ट माइनिंग हैंडबुक कैम्ब्रिज यूनिवर्सिटी प्रेस, ISBN 978-0-521-83657-9.

  • गुओ, येक और रॉबर्ट ग्रॉसमैन, संपादक (1999) हाई परफोर्मेंस डाटा माइनिंग: स्केलिंग एल्गोरिदम, एप्लीकेशन एंड सिस्टम क्लुवेर अकादमिक प्रकाशक.

  • हस्ती, ट्रेवर, रॉबर्ट टिबशिरानी और जेरोम फ्रीडमन (2001). द एलिमेंट्स ऑफ़ स्टेटीस्टीकल लर्निंग: डाटा माइनिंग, इनफरेंस एंड प्रिडिकशन स्प्रिंगर, 0387952845 ISBN.

  • होर्निक, मार्क एफ, एरिक मर्काद और सुनील वेंकेला जावा डाटा माइनिंग: स्ट्रेटेजी, स्टेनडर्ड, एंड प्रैक्टिस: अ प्रेक्टिकल गाइड फॉर आर्कीटेक्चर, डिजाइन, एंड इम्प्लीमेनटेशन (Broché).

  • बिंग लियू (2007). वेब डाटा माइनिंग: एक्स्प्लोरिंग हाइपरलिंक्स कोंटेंट्स एंड यूसेज डाटा. स्प्रिंगर 3540378812 ISBN.

  • मिअरसवा, इंगो, माइकल वुर्स्त, राल्फ क्लिनकेंबर्ग, मार्टिन शोल्ज़ और टीम युलर (2006) YALE: रैपिड प्रोटोटाइपिंग फॉर कोम्प्लेक्स डाटा माइनिंग टास्क 12 वीं ACM SIGKDD ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में (KDD-06).

  • निस्बेट, रॉबर्ट, जॉन एल्डर, गैरी माइनर, 'सांख्यिकीय विश्लेषण और डाटा माइनिंग अनुप्रयोग की पुस्तिका, अकैडमिक प्रेस / एल्सेविअर ISBN 978-0-12-374765-5 (2009)

  • पोंसलेट, पास्कल, फ्लोरेंट मसेग्लिया और मागुलोन टेसेरे, संपादक (अक्टूबर 2007) डाटा माइनिंग पैटर्न: नए तरीके और अनुप्रयोग, सूचना विज्ञान संदर्भ, ISBN 978-1-59904-162-9.

  • पेंग-निंग टैन, माइकल स्टीनबख और विपिन कुमार, डाटा माइनिंग परिचय (2005), ISBN 0-321-32136-7

  • वैंग, XZ; मेदसनी, एस; मरहून, एफ, अल बजाज, एच. (2004 मल्टीडाइमेन्शनल विजुअलाइजेशन ऑफ़ प्रिंसिपल कोम्पोनेंट स्कोर्स फॉर प्रोसेस हिस्टोरिकल डाटा अनैलिसिस औद्योगिक एंड इंजीनियरिंग रसायन विज्ञान अनुसंधान, 43(22), pp. 7,036-7,048.

  • वैंग, XZ (1999) प्रक्रिया निगरानी और नियंत्रण के लिए डाटा माइनिंग और ज्ञान की खोज स्प्रिंगर, लंदन.

  • वाइस और इन्दुर्ख्या पूर्वानुमान डाटा माइनिंग, मॉर्गन कॉफमन

  • विटन, इयान और एइब फ्रैंक (2000) डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स विथ जावा इम्प्लीमेनटेशन ISBN 1-55860-552-5 (यह भी देखें फ्री वेका सॉफ्टवेयर)


बाह्य संबंध



  • ACM SIGKDD, डाटा माइनिंग और ज्ञान खोज के लिए व्यावसायिक संघ


  • मुक्त निर्देशिका परियोजना पर Data Mining


Popular posts from this blog

कुँवर स्रोत दिक्चालन सूची"कुँवर""राणा कुँवरके वंशावली"

Why is a white electrical wire connected to 2 black wires?How to wire a light fixture with 3 white wires in box?How should I wire a ceiling fan when there's only three wires in the box?Two white, two black, two ground, and red wire in ceiling box connected to switchWhy is there a white wire connected to multiple black wires in my light box?How to wire a light with two white wires and one black wireReplace light switch connected to a power outlet with dimmer - two black wires to one black and redHow to wire a light with multiple black/white/green wires from the ceiling?Ceiling box has 2 black and white wires but fan/ light only has 1 of eachWhy neutral wire connected to load wire?Switch with 2 black, 2 white, 2 ground and 1 red wire connected to ceiling light and a receptacle?

चैत्य भूमि चित्र दीर्घा सन्दर्भ बाहरी कडियाँ दिक्चालन सूची"Chaitya Bhoomi""Chaitya Bhoomi: Statue of Equality in India""Dadar Chaitya Bhoomi: Statue of Equality in India""Ambedkar memorial: Centre okays transfer of Indu Mill land"चैत्यभमि