डेटा विज्ञान - सांख्यिकी मानक विचलन


मानक विचलन

मानक विचलन एक संख्या है जो बताती है कि अवलोकन कितने फैले हुए हैं।

मानक विचलन

यदि प्रेक्षण "फैला हुआ" हैं, तो एक गणितीय फलन को सटीक मानों की भविष्यवाणी करने में कठिनाइयाँ होंगी। मानक विचलन अनिश्चितता का एक उपाय है।

निम्न मानक विचलन का अर्थ है कि अधिकांश संख्याएँ माध्य (औसत) मान के करीब हैं।

एक उच्च मानक विचलन का अर्थ है कि मान एक व्यापक श्रेणी में फैले हुए हैं।

मानक विचलन को अक्सर सिग्मा प्रतीक द्वारा दर्शाया जाता है:

हम std()एक चर के मानक विचलन को खोजने के लिए Numpy से फ़ंक्शन का उपयोग कर सकते हैं:

उदाहरण

import numpy as np

std = np.std(full_health_data)
print(std)

उत्पादन:

मानक विचलन

इन नंबरों का क्या मतलब है?


गुणांक का परिवर्तन

मानक विचलन कितना बड़ा है, इसका अंदाजा लगाने के लिए भिन्नता के गुणांक का उपयोग किया जाता है।

गणितीय रूप से, भिन्नता के गुणांक को इस प्रकार परिभाषित किया गया है:

Coefficient of Variation = Standard Deviation / Mean

 यदि हम निम्नलिखित कोड के साथ आगे बढ़ते हैं तो हम इसे पायथन में कर सकते हैं:

उदाहरण

import numpy as np

cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)

उत्पादन:

गुणांक का परिवर्तन

हम देखते हैं कि चर अवधि, कैलोरी_बर्नेज और घंटे_वर्क में मैक्स_पल्स, एवरेज_पल्स और घंटे_स्लीप की तुलना में उच्च मानक विचलन है।