डेटा विज्ञान - सांख्यिकी मानक विचलन
मानक विचलन
मानक विचलन एक संख्या है जो बताती है कि अवलोकन कितने फैले हुए हैं।
यदि प्रेक्षण "फैला हुआ" हैं, तो एक गणितीय फलन को सटीक मानों की भविष्यवाणी करने में कठिनाइयाँ होंगी। मानक विचलन अनिश्चितता का एक उपाय है।
निम्न मानक विचलन का अर्थ है कि अधिकांश संख्याएँ माध्य (औसत) मान के करीब हैं।
एक उच्च मानक विचलन का अर्थ है कि मान एक व्यापक श्रेणी में फैले हुए हैं।
मानक विचलन को अक्सर सिग्मा प्रतीक द्वारा दर्शाया जाता है:
हम std()
एक चर के मानक विचलन को खोजने के लिए Numpy से फ़ंक्शन का उपयोग कर सकते हैं:
उदाहरण
import numpy as np
std = np.std(full_health_data)
print(std)
उत्पादन:
इन नंबरों का क्या मतलब है?
गुणांक का परिवर्तन
मानक विचलन कितना बड़ा है, इसका अंदाजा लगाने के लिए भिन्नता के गुणांक का उपयोग किया जाता है।
गणितीय रूप से, भिन्नता के गुणांक को इस प्रकार परिभाषित किया गया है:
Coefficient of Variation = Standard Deviation / Mean
यदि हम निम्नलिखित कोड के साथ आगे बढ़ते हैं तो हम इसे पायथन में कर सकते हैं:
उदाहरण
import numpy as np
cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)
उत्पादन:
हम देखते हैं कि चर अवधि, कैलोरी_बर्नेज और घंटे_वर्क में मैक्स_पल्स, एवरेज_पल्स और घंटे_स्लीप की तुलना में उच्च मानक विचलन है।