डेटा विज्ञान - सांख्यिकी विचरण


झगड़ा

भिन्नता एक और संख्या है जो इंगित करती है कि मान कितने फैले हुए हैं।

वास्तव में, यदि आप विचरण का वर्गमूल लेते हैं, तो आपको मानक विचलन प्राप्त होता है। या दूसरी तरफ, यदि आप मानक विचलन को अपने आप से गुणा करते हैं, तो आपको विचरण मिलता है!

हम पहले 10 अवलोकनों के साथ डेटा सेट का उपयोग करके उदाहरण देंगे कि हम विचरण की गणना कैसे कर सकते हैं:

अवधि औसत_पल्स मैक्स_पल्स कैलोरी_बर्नेज घंटे_कार्य घंटे_नींद
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

विचरण को अक्सर सिग्मा स्क्वायर के प्रतीक द्वारा दर्शाया जाता है: σ^2


चरण 1 प्रसरण की गणना करने के लिए: माध्य ज्ञात करें

हम औसत_पल्स का विचरण खोजना चाहते हैं।

1. माध्य ज्ञात कीजिए:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

माध्य 102.5 . है


चरण 2: प्रत्येक मान के लिए - माध्य से अंतर ज्ञात करें

2. प्रत्येक मान के माध्य से अंतर ज्ञात कीजिए:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

चरण 3: प्रत्येक अंतर के लिए - वर्ग मान ज्ञात करें

3. प्रत्येक अंतर के लिए वर्ग मान ज्ञात कीजिए:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

नोट: कुल प्रसार प्राप्त करने के लिए हमें मानों को वर्गाकार करना चाहिए।



चरण 4: विचरण इन चुकता मानों की औसत संख्या है

4. चुकता मानों का योग करें और औसत ज्ञात करें:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

विचरण 206.25 है।


Health_data का वेरिएंस खोजने के लिए पायथन का उपयोग करें

var()हम भिन्नता को खोजने के लिए Numpy से फ़ंक्शन का उपयोग कर सकते हैं (याद रखें कि अब हम 10 अवलोकनों के साथ पहले डेटा सेट का उपयोग करते हैं):

उदाहरण

import numpy as np

var = np.var(health_data)
print(var)

उत्पादन:

झगड़ा

पूर्ण डेटा सेट की भिन्नता का पता लगाने के लिए पायथन का उपयोग करें

यहां हम पूर्ण डेटा सेट के लिए प्रत्येक कॉलम के लिए विचरण की गणना करते हैं:

उदाहरण

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

उत्पादन:

झगड़ा