मशीन लर्निंग - डेटा वितरण
डेटा वितरण
इससे पहले इस ट्यूटोरियल में हमने अपने उदाहरणों में बहुत कम मात्रा में डेटा के साथ काम किया है, बस विभिन्न अवधारणाओं को समझने के लिए।
वास्तविक दुनिया में, डेटा सेट बहुत बड़े होते हैं, लेकिन वास्तविक दुनिया के डेटा को इकट्ठा करना मुश्किल हो सकता है, कम से कम किसी प्रोजेक्ट के शुरुआती चरण में।
हम बड़े डेटा सेट कैसे प्राप्त कर सकते हैं?
परीक्षण के लिए बड़े डेटा सेट बनाने के लिए, हम पायथन मॉड्यूल NumPy का उपयोग करते हैं, जो किसी भी आकार के यादृच्छिक डेटा सेट बनाने के लिए कई तरीकों के साथ आता है।
उदाहरण
0 और 5 के बीच 250 यादृच्छिक फ़्लोट्स वाली एक सरणी बनाएँ:
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
हिस्टोग्राम
डेटा सेट की कल्पना करने के लिए हम अपने द्वारा एकत्र किए गए डेटा के साथ एक हिस्टोग्राम बना सकते हैं।
हम हिस्टोग्राम बनाने के लिए पायथन मॉड्यूल Matplotlib का उपयोग करेंगे।
हमारे Matplotlib ट्यूटोरियल में Matplotlib मॉड्यूल के बारे में जानें ।
उदाहरण
एक हिस्टोग्राम बनाएं:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
परिणाम:
हिस्टोग्राम समझाया
हम 5 बार के साथ हिस्टोग्राम बनाने के लिए ऊपर दिए गए उदाहरण से सरणी का उपयोग करते हैं।
पहला बार दर्शाता है कि सरणी में कितने मान 0 और 1 के बीच हैं।
दूसरा बार दर्शाता है कि 1 और 2 के बीच कितने मान हैं।
आदि।
जो हमें यह परिणाम देता है:
- 52 मान 0 और 1 . के बीच हैं
- 48 मान 1 और 2 . के बीच हैं
- 49 मान 2 और 3 . के बीच हैं
- 51 मान 3 और 4 . के बीच हैं
- 50 मान 4 और 5 . के बीच हैं
नोट: सरणी मान यादृच्छिक संख्याएं हैं और आपके कंप्यूटर पर सटीक वही परिणाम नहीं दिखाएंगे।
बड़ा डेटा वितरण
250 मानों वाली एक सरणी को बहुत बड़ा नहीं माना जाता है, लेकिन अब आप जानते हैं कि मानों का एक यादृच्छिक सेट कैसे बनाया जाता है, और मापदंडों को बदलकर, आप जितना चाहें उतना बड़ा डेटा सेट बना सकते हैं।
उदाहरण
100000 यादृच्छिक संख्याओं के साथ एक सरणी बनाएं, और 100 बार वाले हिस्टोग्राम का उपयोग करके उन्हें प्रदर्शित करें:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()