डेटा विज्ञान - सांख्यिकी सहसंबंध मैट्रिक्स


सहसम्बंध मैट्रिक्स

एक मैट्रिक्स पंक्तियों और स्तंभों में व्यवस्थित संख्याओं की एक सरणी है।

एक सहसंबंध मैट्रिक्स केवल एक तालिका है जो चर के बीच सहसंबंध गुणांक दिखाती है।

यहां, वेरिएबल को पहली पंक्ति में और पहले कॉलम में दर्शाया गया है:

सहसम्बंध मैट्रिक्स

ऊपर दी गई तालिका में संपूर्ण स्वास्थ्य डेटा सेट के डेटा का उपयोग किया गया है।

अवलोकन:

  • हम देखते हैं कि 0.89 के सहसंबंध गुणांक के साथ, अवधि और कैलोरी_बर्नेज निकट से संबंधित हैं। यह समझ में आता है कि हम जितनी अधिक देर तक प्रशिक्षण लेते हैं, उतनी ही अधिक कैलोरी हम बर्न करते हैं
  • हम देखते हैं कि औसत_पल्स और कैलोरी_बर्नेज के बीच लगभग कोई रैखिक संबंध नहीं है (0.02 का सहसंबंध गुणांक)
  • क्या हम यह निष्कर्ष निकाल सकते हैं कि औसत_पल्स कैलोरी_बर्नेज को प्रभावित नहीं करता है? नहीं, हम इस प्रश्न का उत्तर बाद में देने के लिए वापस आएंगे!

पायथन में सहसंबंध मैट्रिक्स

हम corr()सहसंबंध मैट्रिक्स बनाने के लिए पायथन में फ़ंक्शन का उपयोग कर सकते हैं। हम round()आउटपुट को दो दशमलव तक गोल करने के लिए भी फ़ंक्शन का उपयोग करते हैं:

उदाहरण

Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)

आउटपुट:

सहसम्बंध मैट्रिक्स

हीटमैप का उपयोग करना

हम चर के बीच सहसंबंध की कल्पना करने के लिए हीटमैप का उपयोग कर सकते हैं:

सहसंबंध हीटमैप

सहसंबंध गुणांक 1 के जितना करीब होगा, वर्गों को उतनी ही हरियाली मिलेगी।

सहसंबंध गुणांक -1 के जितना करीब होगा, वर्ग उतने ही भूरे होंगे।


हीटमैप बनाने के लिए सीबॉर्न का उपयोग करें

हम सहसंबंध ताप मानचित्र बनाने के लिए सीबॉर्न लाइब्रेरी का उपयोग कर सकते हैं (सीबॉर्न एक विज़ुअलाइज़ेशन लाइब्रेरी है जो मैटप्लोटलिब पर आधारित है):

उदाहरण

import matplotlib.pyplot as plt
import seaborn as sns

correlation_full_health = full_health_data.corr()

axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50, 500, n=500),
square=True
)

plt.show()

उदाहरण समझाया:

  • पुस्तकालय सीबॉर्न को एसएनएस के रूप में आयात करें।
  • Full_health_data सेट का उपयोग करें।
  • पायथन को यह बताने के लिए sns.heatmap () का उपयोग करें कि हम सहसंबंध मैट्रिक्स की कल्पना करने के लिए एक हीटमैप चाहते हैं।
  • सहसंबंध मैट्रिक्स का प्रयोग करें। हीटमैप के अधिकतम और न्यूनतम मूल्यों को परिभाषित करें। परिभाषित करें कि 0 केंद्र है।
  • Sns.diverging_palette के साथ रंगों को परिभाषित करें। n=500 का अर्थ है कि हम एक ही रंग पैलेट में 500 प्रकार के रंग चाहते हैं।
  • वर्ग = सत्य का अर्थ है कि हम वर्ग देखना चाहते हैं।