डेटा क्लस्टर
- क्लस्टर समान डेटा का संग्रह हैं
- क्लस्टरिंग एक प्रकार की अनुपयोगी शिक्षा है
- सहसंबंध गुणांक एक रिश्ते की ताकत का वर्णन करता है ।
समूहों
क्लस्टर समानता के आधार पर डेटा का संग्रह है।
ग्राफ़ में एक साथ क्लस्टर किए गए डेटा बिंदुओं को अक्सर समूहों में वर्गीकृत किया जा सकता है।
नीचे दिए गए ग्राफ़ में हम 3 अलग-अलग समूहों को अलग कर सकते हैं:
समूहों की पहचान
क्लस्टर बहुत सारी मूल्यवान जानकारी रख सकते हैं, लेकिन क्लस्टर सभी प्रकार के आकार में आते हैं, तो हम उन्हें कैसे पहचान सकते हैं?
दो मुख्य विधियाँ हैं:
- विज़ुअलाइज़ेशन का उपयोग करना
- क्लस्टरिंग एल्गोरिथम का उपयोग करना
क्लस्टरिंग
क्लस्टरिंग एक प्रकार का अनसुपरवाइज्ड लर्निंग है ।
क्लस्टरिंग करने की कोशिश कर रहा है:
- समूहों में समान डेटा एकत्र करें
- अन्य समूहों में भिन्न डेटा एकत्र करें
क्लस्टरिंग तरीके
- घनत्व विधि
- पदानुक्रमित विधि
- विभाजन विधि
- ग्रिड आधारित विधि
घनत्व विधि घने क्षेत्रों में बिंदुओं को कम घने क्षेत्र में बिंदुओं की तुलना में अधिक समानताएं और अंतर मानती है । घनत्व विधि में अच्छी सटीकता है। इसमें समूहों को मर्ज करने की क्षमता भी है।
दो सामान्य एल्गोरिदम डीबीएससीएएन और ऑप्टिक्स हैं।
पदानुक्रमित विधि एक वृक्ष-प्रकार की संरचना में समूहों का निर्माण करती है । पहले से बने समूहों का उपयोग करके नए क्लस्टर बनाए जाते हैं।
इलाज और सन्टी दो आम एल्गोरिदम हैं।
ग्रिड-आधारित विधि डेटा को कोशिकाओं की एक सीमित संख्या में तैयार करती है जो ग्रिड जैसी संरचना बनाती है ।
दो सामान्य एल्गोरिदम हैं CLIQUE और STING
विभाजन विधि वस्तुओं को k समूहों में विभाजित करती है और प्रत्येक विभाजन एक क्लस्टर बनाता है।
एक सामान्य एल्गोरिथ्म CLARANS है।
सहसंबंध गुणांक
सहसंबंध गुणांक (आर) एक रैखिक संबंध की ताकत और दिशा और स्कैटरप्लॉट पर x/y चर का वर्णन करता है ।
r का मान हमेशा -1 और +1 के बीच होता है:
-1.00 | बिल्कुल सही डाउनहिल | नकारात्मक रैखिक संबंध। |
-0.70 | मजबूत डाउनहिल | नकारात्मक रैखिक संबंध। |
-0.50 | मध्यम डाउनहिल | नकारात्मक रैखिक संबंध। |
-0.30 | कमजोर डाउनहिल | नकारात्मक रैखिक संबंध। |
0 | कोई रैखिक संबंध नहीं। | |
+0.30 | कमजोर चढ़ाई | सकारात्मक रैखिक संबंध। |
+0.50 | मध्यम चढ़ाई | सकारात्मक रैखिक संबंध। |
+0.70 | मजबूत चढ़ाई | सकारात्मक रैखिक संबंध। |
+1.00 | बिल्कुल सही चढ़ाई | सकारात्मक रैखिक संबंध। |
बिल्कुल सही ऊपर की ओर +1.00 :
बिल्कुल सही डाउनहिल -1.00 :
मजबूत चढ़ाई +0.61 :
कोई रिश्ता नहीं :