मशीन लर्निंग - स्कैटर प्लॉट
स्कैटर प्लॉट
स्कैटर प्लॉट एक आरेख है जहां डेटा सेट में प्रत्येक मान को एक बिंदु द्वारा दर्शाया जाता है।
Matplotlib मॉड्यूल में स्कैटर प्लॉट खींचने की एक विधि है, इसे समान लंबाई के दो सरणियों की आवश्यकता होती है, एक x-अक्ष के मानों के लिए, और एक y-अक्ष के मानों के लिए:
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
सरणी प्रत्येक कार की आयु का x
प्रतिनिधित्व करती है।
y
सरणी प्रत्येक कार की गति का प्रतिनिधित्व करती है ।
उदाहरण
scatter()
स्कैटर प्लॉट आरेख बनाने के लिए विधि का उपयोग करें :
import matplotlib.pyplot as plt
x =
[5,7,8,7,2,17,2,9,4,11,12,9,6]
y =
[99,86,87,88,111,86,103,87,94,78,77,85,86]
plt.scatter(x, y)
plt.show()
परिणाम:
स्कैटर प्लॉट समझाया गया
एक्स-अक्ष उम्र का प्रतिनिधित्व करता है, और वाई-अक्ष गति का प्रतिनिधित्व करता है।
आरेख से हम जो पढ़ सकते हैं वह यह है कि दो सबसे तेज कारें दोनों 2 वर्ष पुरानी थीं, और सबसे धीमी कार 12 वर्ष पुरानी थी।
नोट: ऐसा लगता है कि कार जितनी नई होगी, उतनी ही तेज चलेगी, लेकिन यह एक संयोग हो सकता है, आखिरकार हमने केवल 13 कारों का पंजीकरण किया।
यादृच्छिक डेटा वितरण
मशीन लर्निंग में डेटा सेट में हजारों- या लाखों, मान हो सकते हैं।
हो सकता है कि आपके पास वास्तविक विश्व डेटा न हो जब आप किसी एल्गोरिथम का परीक्षण कर रहे हों, तो आपको बेतरतीब ढंग से उत्पन्न मूल्यों का उपयोग करना पड़ सकता है।
जैसा कि हमने पिछले अध्याय में सीखा है, NumPy मॉड्यूल इसमें हमारी मदद कर सकता है!
आइए हम दो सरणियाँ बनाते हैं जो दोनों एक सामान्य डेटा वितरण से 1000 यादृच्छिक संख्याओं से भरी होती हैं।
पहली सरणी का माध्य 1.0 के मानक विचलन के साथ 5.0 पर सेट होगा।
दूसरी सरणी का मतलब 2.0 के मानक विचलन के साथ 10.0 पर सेट होगा:
उदाहरण
1000 डॉट्स वाला स्कैटर प्लॉट:
import numpy
import matplotlib.pyplot as plt
x = numpy.random.normal(5.0,
1.0, 1000)
y = numpy.random.normal(10.0, 2.0, 1000)
plt.scatter(x, y)
plt.show()
परिणाम:
स्कैटर प्लॉट समझाया गया
हम देख सकते हैं कि बिंदु x-अक्ष पर मान 5 और y-अक्ष पर 10 के आसपास केंद्रित हैं।
हम यह भी देख सकते हैं कि फैलाव x-अक्ष की तुलना में y-अक्ष पर व्यापक है।