मशीन लर्निंग - सामान्य डेटा वितरण
सामान्य डेटा वितरण
पिछले अध्याय में हमने सीखा कि किसी दिए गए आकार और दो दिए गए मानों के बीच पूरी तरह से यादृच्छिक सरणी कैसे बनाई जाती है।
इस अध्याय में हम सीखेंगे कि एक सरणी कैसे बनाई जाती है जहां मान किसी दिए गए मान के आसपास केंद्रित होते हैं।
संभाव्यता सिद्धांत में इस तरह के डेटा वितरण को सामान्य डेटा वितरण , या गॉसियन डेटा वितरण के रूप में जाना जाता है , गणितज्ञ कार्ल फ्रेडरिक गॉस के बाद, जो इस डेटा वितरण के सूत्र के साथ आए थे।
उदाहरण
एक सामान्य सामान्य डेटा वितरण:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.normal(5.0, 1.0, 100000)
plt.hist(x, 100)
plt.show()
परिणाम:
नोट: एक सामान्य वितरण ग्राफ को घंटी वक्र के रूप में भी जाना जाता है क्योंकि यह घंटी के विशिष्ट आकार के कारण होता है।
हिस्टोग्राम समझाया
numpy.random.normal()
हम 100 बार के साथ हिस्टोग्राम खींचने के लिए 100000 मानों के साथ विधि से सरणी का उपयोग करते हैं ।
हम निर्दिष्ट करते हैं कि माध्य मान 5.0 है, और मानक विचलन 1.0 है।
इसका मतलब है कि मान 5.0 के आसपास केंद्रित होना चाहिए, और शायद ही कभी माध्य से 1.0 से अधिक दूर होना चाहिए।
और जैसा कि आप हिस्टोग्राम से देख सकते हैं, अधिकांश मान 4.0 और 6.0 के बीच हैं, जिसका शीर्ष लगभग 5.0 है।