पांडा - डेटा सहसंबंध
रिश्ते ढूँढना
पंडों मॉड्यूल का एक बड़ा पहलू corr()
विधि है।
यह corr()
विधि आपके डेटा सेट में प्रत्येक कॉलम के बीच संबंध की गणना करती है।
इस पृष्ठ के उदाहरण एक CSV फ़ाइल का उपयोग करते हैं जिसका नाम है: 'data.csv'।
data.csv डाउनलोड करें । या खुला data.csv
उदाहरण
कॉलम के बीच संबंध दिखाएं:
df.corr()
परिणाम
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
नोट:corr()
विधि "संख्यात्मक नहीं" कॉलम को अनदेखा करती है
।
परिणाम समझाया
विधि का परिणाम corr()
बहुत सारी संख्याओं वाली एक तालिका है जो दर्शाती है कि दो स्तंभों के बीच संबंध कितना अच्छा है।
संख्या -1 से 1 तक भिन्न होती है।
1 का अर्थ है कि 1 से 1 संबंध (एक पूर्ण सहसंबंध) है, और इस डेटा सेट के लिए, हर बार जब पहले कॉलम में एक मान ऊपर जाता है, तो दूसरा भी ऊपर जाता है।
0.9 भी एक अच्छा संबंध है, और यदि आप एक मान बढ़ाते हैं, तो संभवतः दूसरा भी बढ़ जाएगा।
-0.9, 0.9 जितना ही अच्छा संबंध होगा, लेकिन यदि आप एक मान बढ़ाते हैं, तो दूसरा संभवतः नीचे चला जाएगा।
0.2 का मतलब अच्छा संबंध नहीं है, जिसका अर्थ है कि यदि एक मान बढ़ता है तो इसका मतलब यह नहीं है कि दूसरा होगा।
एक अच्छा सहसंबंध क्या है? यह उपयोग पर निर्भर करता है, लेकिन मुझे लगता है कि यह कहना सुरक्षित है कि इसे एक अच्छा सहसंबंध
कहने के लिए आपके पास कम से कम 0.6
(या ) होना चाहिए।-0.6
सही सहसंबंध:
हम देख सकते हैं कि "अवधि" और "अवधि" को संख्या मिली है 1.000000
, जो समझ में आता है, प्रत्येक कॉलम का हमेशा अपने साथ एक आदर्श संबंध होता है।
अच्छा सहसंबंध:
"अवधि" और "कैलोरी" को एक 0.922721
सहसंबंध मिला, जो एक बहुत अच्छा सहसंबंध है, और हम यह अनुमान लगा सकते हैं कि आप जितनी अधिक देर तक कसरत करेंगे, उतनी ही अधिक कैलोरी आप बर्न करेंगे, और इसके विपरीत: यदि आपने बहुत अधिक कैलोरी बर्न की है, तो आप शायद एक लंबा काम था।
खराब सहसंबंध:
"अवधि" और "मैक्सपल्स" को एक 0.009403
सहसंबंध मिला, जो एक बहुत ही खराब सहसंबंध है, जिसका अर्थ है कि हम केवल वर्कआउट की अवधि को देखकर और इसके विपरीत अधिकतम पल्स का अनुमान नहीं लगा सकते हैं।
प्रमाणन हासिल करें!
$10 नामांकन