डेटा विज्ञान - सांख्यिकी सहसंबंध
सह - संबंध
सहसंबंध दो चरों के बीच संबंध को मापता है।
हमने उल्लेख किया है कि एक फ़ंक्शन का उद्देश्य इनपुट (x) को आउटपुट (f(x)) में परिवर्तित करके एक मूल्य की भविष्यवाणी करना है। हम यह भी कह सकते हैं कि एक फ़ंक्शन भविष्यवाणी के लिए दो चर के बीच संबंध का उपयोग करता है।
सहसंबंध गुणांक
सहसंबंध गुणांक दो चरों के बीच संबंध को मापता है।
सहसंबंध गुणांक कभी भी -1 से कम या 1 से अधिक नहीं हो सकता।
- 1 = चर के बीच एक पूर्ण रैखिक संबंध है (जैसे कैलोरी_बर्नेज के खिलाफ औसत_पल्स)
- 0 = चरों के बीच कोई रैखिक संबंध नहीं है
- -1 = चर के बीच एक पूर्ण नकारात्मक रैखिक संबंध है (उदाहरण के लिए कम घंटे काम किया जाता है, एक प्रशिक्षण सत्र के दौरान उच्च कैलोरी बर्न होता है)
एक पूर्ण रैखिक संबंध का उदाहरण (सहसंबंध गुणांक = 1)
हम औसत_पल्स और कैलोरी_बर्नेज के बीच संबंधों की कल्पना करने के लिए स्कैटरप्लॉट का उपयोग करेंगे (हमने 10 अवलोकनों के साथ स्पोर्ट्स वॉच के छोटे डेटा सेट का उपयोग किया है)।
इस बार हम स्कैटर प्लॉट चाहते हैं, इसलिए हम तरह से "स्कैटर" बदलते हैं:
उदाहरण
import matplotlib.pyplot as plt
health_data.plot(x ='Average_Pulse', y='Calorie_Burnage',
kind='scatter')
plt.show()
आउटपुट:
जैसा कि हमने पहले देखा, यह औसत_पल्स और कैलोरी_बर्नेज के बीच एक पूर्ण रैखिक संबंध मौजूद है।
एक पूर्ण ऋणात्मक रैखिक संबंध का उदाहरण (सहसंबंध गुणांक = -1)
हमने यहां काल्पनिक डेटा प्लॉट किया है। एक्स-अक्ष एक प्रशिक्षण सत्र से पहले हमारे काम पर काम किए गए घंटों की मात्रा का प्रतिनिधित्व करता है। Y-अक्ष कैलोरी_बर्नेज है।
यदि हम अधिक घंटे काम करते हैं, तो हम कम कैलोरी बर्न करते हैं क्योंकि हम प्रशिक्षण सत्र से पहले थक जाते हैं।
यहाँ सहसंबंध गुणांक -1 है।
उदाहरण
import pandas as pd
import matplotlib.pyplot as plt
negative_corr =
{'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage':
[220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)
negative_corr.plot(x ='Hours_Work_Before_Training',
y='Calorie_Burnage', kind='scatter')
plt.show()
नो लीनियर रिलेशनशिप का उदाहरण (सहसंबंध गुणांक = 0)
यहाँ, हमने Full_health_data सेट से Max_Pulse को अवधि के विरुद्ध प्लॉट किया है।
जैसा कि आप देख सकते हैं, दो चरों के बीच कोई रैखिक संबंध नहीं है। इसका मतलब है कि लंबे समय तक प्रशिक्षण सत्र उच्च Max_Pulse की ओर नहीं ले जाता है।
यहाँ सहसंबंध गुणांक 0 है।
उदाहरण
import matplotlib.pyplot as plt
full_health_data.plot(x ='Duration', y='Max_Pulse',
kind='scatter')
plt.show()