डेटा विज्ञान - सांख्यिकी सहसंबंध


सह - संबंध

सहसंबंध दो चरों के बीच संबंध को मापता है।

हमने उल्लेख किया है कि एक फ़ंक्शन का उद्देश्य इनपुट (x) को आउटपुट (f(x)) में परिवर्तित करके एक मूल्य की भविष्यवाणी करना है। हम यह भी कह सकते हैं कि एक फ़ंक्शन भविष्यवाणी के लिए दो चर के बीच संबंध का उपयोग करता है।


सहसंबंध गुणांक

सहसंबंध गुणांक दो चरों के बीच संबंध को मापता है।

सहसंबंध गुणांक कभी भी -1 से कम या 1 से अधिक नहीं हो सकता।

  • 1 = चर के बीच एक पूर्ण रैखिक संबंध है (जैसे कैलोरी_बर्नेज के खिलाफ औसत_पल्स)
  • 0 = चरों के बीच कोई रैखिक संबंध नहीं है
  • -1 = चर के बीच एक पूर्ण नकारात्मक रैखिक संबंध है (उदाहरण के लिए कम घंटे काम किया जाता है, एक प्रशिक्षण सत्र के दौरान उच्च कैलोरी बर्न होता है)

एक पूर्ण रैखिक संबंध का उदाहरण (सहसंबंध गुणांक = 1)

हम औसत_पल्स और कैलोरी_बर्नेज के बीच संबंधों की कल्पना करने के लिए स्कैटरप्लॉट का उपयोग करेंगे (हमने 10 अवलोकनों के साथ स्पोर्ट्स वॉच के छोटे डेटा सेट का उपयोग किया है)।

इस बार हम स्कैटर प्लॉट चाहते हैं, इसलिए हम तरह से "स्कैटर" बदलते हैं:

उदाहरण

import matplotlib.pyplot as plt

health_data.plot(x ='Average_Pulse', y='Calorie_Burnage', kind='scatter')
plt.show()

आउटपुट:

सहसंबंध गुणांक = 1

जैसा कि हमने पहले देखा, यह औसत_पल्स और कैलोरी_बर्नेज के बीच एक पूर्ण रैखिक संबंध मौजूद है।



एक पूर्ण ऋणात्मक रैखिक संबंध का उदाहरण (सहसंबंध गुणांक = -1)

सहसंबंध गुणांक = -1

हमने यहां काल्पनिक डेटा प्लॉट किया है। एक्स-अक्ष एक प्रशिक्षण सत्र से पहले हमारे काम पर काम किए गए घंटों की मात्रा का प्रतिनिधित्व करता है। Y-अक्ष कैलोरी_बर्नेज है।

यदि हम अधिक घंटे काम करते हैं, तो हम कम कैलोरी बर्न करते हैं क्योंकि हम प्रशिक्षण सत्र से पहले थक जाते हैं।

यहाँ सहसंबंध गुणांक -1 है।

उदाहरण

import pandas as pd
import matplotlib.pyplot as plt

negative_corr = {'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage': [220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)

negative_corr.plot(x ='Hours_Work_Before_Training', y='Calorie_Burnage', kind='scatter')
plt.show()

नो लीनियर रिलेशनशिप का उदाहरण (सहसंबंध गुणांक = 0)

सहसंबंध गुणांक = 0

यहाँ, हमने Full_health_data सेट से Max_Pulse को अवधि के विरुद्ध प्लॉट किया है।

जैसा कि आप देख सकते हैं, दो चरों के बीच कोई रैखिक संबंध नहीं है। इसका मतलब है कि लंबे समय तक प्रशिक्षण सत्र उच्च Max_Pulse की ओर नहीं ले जाता है।

यहाँ सहसंबंध गुणांक 0 है।

उदाहरण

import matplotlib.pyplot as plt

full_health_data.plot(x ='Duration', y='Max_Pulse', kind='scatter')
plt.show()