डेटा क्लस्टर

क्लस्टर समान डेटा का संग्रह हैं
क्लस्टरिंग एक प्रकार की अनुपयोगी शिक्षा है
सहसंबंध गुणांक एक रिश्ते की ताकत का वर्णन करता है ।

समूहों

क्लस्टर समानता के आधार पर डेटा का संग्रह है।

ग्राफ़ में एक साथ क्लस्टर किए गए डेटा बिंदुओं को अक्सर समूहों में वर्गीकृत किया जा सकता है।

नीचे दिए गए ग्राफ़ में हम 3 अलग-अलग समूहों को अलग कर सकते हैं:

समूहों की पहचान

क्लस्टर बहुत सारी मूल्यवान जानकारी रख सकते हैं, लेकिन क्लस्टर सभी प्रकार के आकार में आते हैं, तो हम उन्हें कैसे पहचान सकते हैं?

दो मुख्य विधियाँ हैं:

विज़ुअलाइज़ेशन का उपयोग करना
क्लस्टरिंग एल्गोरिथम का उपयोग करना

क्लस्टरिंग

क्लस्टरिंग एक प्रकार का अनसुपरवाइज्ड लर्निंग है ।

क्लस्टरिंग करने की कोशिश कर रहा है:

समूहों में समान डेटा एकत्र करें
अन्य समूहों में भिन्न डेटा एकत्र करें

क्लस्टरिंग तरीके

घनत्व विधि
पदानुक्रमित विधि
विभाजन विधि
ग्रिड आधारित विधि

घनत्व विधि घने क्षेत्रों में बिंदुओं को कम घने क्षेत्र में बिंदुओं की तुलना में अधिक समानताएं और अंतर मानती है । घनत्व विधि में अच्छी सटीकता है। इसमें समूहों को मर्ज करने की क्षमता भी है।
दो सामान्य एल्गोरिदम डीबीएससीएएन और ऑप्टिक्स हैं।

पदानुक्रमित विधि एक वृक्ष-प्रकार की संरचना में समूहों का निर्माण करती है । पहले से बने समूहों का उपयोग करके नए क्लस्टर बनाए जाते हैं।
इलाज और सन्टी दो आम एल्गोरिदम हैं।

ग्रिड-आधारित विधि डेटा को कोशिकाओं की एक सीमित संख्या में तैयार करती है जो ग्रिड जैसी संरचना बनाती है ।
दो सामान्य एल्गोरिदम हैं CLIQUE और STING

विभाजन विधि वस्तुओं को k समूहों में विभाजित करती है और प्रत्येक विभाजन एक क्लस्टर बनाता है।
एक सामान्य एल्गोरिथ्म CLARANS है।

सहसंबंध गुणांक

सहसंबंध गुणांक (आर) एक रैखिक संबंध की ताकत और दिशा और स्कैटरप्लॉट पर x/y चर का वर्णन करता है ।

r का मान हमेशा -1 और +1 के बीच होता है:

-1.00	बिल्कुल सही डाउनहिल	नकारात्मक रैखिक संबंध।
-0.70	मजबूत डाउनहिल	नकारात्मक रैखिक संबंध।
-0.50	मध्यम डाउनहिल	नकारात्मक रैखिक संबंध।
-0.30	कमजोर डाउनहिल	नकारात्मक रैखिक संबंध।
0		कोई रैखिक संबंध नहीं।
+0.30	कमजोर चढ़ाई	सकारात्मक रैखिक संबंध।
+0.50	मध्यम चढ़ाई	सकारात्मक रैखिक संबंध।
+0.70	मजबूत चढ़ाई	सकारात्मक रैखिक संबंध।
+1.00	बिल्कुल सही चढ़ाई	सकारात्मक रैखिक संबंध।

बिल्कुल सही ऊपर की ओर +1.00 :

बिल्कुल सही डाउनहिल -1.00 :

मजबूत चढ़ाई +0.61 :

कोई रिश्ता नहीं :

❮ पहले का अगला ❯

कृत्रिम होशियारी

गणित

आंकड़े

ग्राफिक्स

एआई साइंस

यंत्र अधिगम

टेंसरफ्लो

उदाहरण 1