डेटा साइंस - रिग्रेशन टेबल: R-Squared
आर - चुकता
R-वर्ग और समायोजित R-वर्ग वर्णन करता है कि रेखीय प्रतिगमन मॉडल डेटा बिंदुओं को कितनी अच्छी तरह फिट करता है:
R-Squared का मान हमेशा 0 से 1 (0% से 100%) के बीच होता है।
- एक उच्च आर-वर्ग मान का अर्थ है कि कई डेटा बिंदु रैखिक प्रतिगमन फ़ंक्शन लाइन के करीब हैं।
- कम R-वर्ग मान का मतलब है कि रैखिक प्रतिगमन फ़ंक्शन लाइन डेटा को अच्छी तरह से फिट नहीं करती है।
निम्न R का दृश्य उदाहरण - चुकता मान (0.00)
हमारा प्रतिगमन मॉडल शून्य का आर-वर्ग मान दिखाता है, जिसका अर्थ है कि रैखिक प्रतिगमन फ़ंक्शन लाइन डेटा को अच्छी तरह से फिट नहीं करती है।
यह तब देखा जा सकता है जब हम औसत_पल्स और कैलोरी_बर्नेज के डेटा बिंदुओं के माध्यम से रैखिक प्रतिगमन फ़ंक्शन की साजिश करते हैं।
उच्च R - चुकता मान का दृश्य उदाहरण (0.79)
हालांकि, अगर हम Duration और Calorie_Burnage प्लॉट करते हैं , तो R-Squared बढ़ जाता है। यहां, हम देखते हैं कि डेटा बिंदु रैखिक प्रतिगमन फ़ंक्शन लाइन के करीब हैं:
यहाँ पायथन में कोड है:
उदाहरण
import pandas as pd
import matplotlib.pyplot as plt
from scipy
import stats
full_health_data = pd.read_csv("data.csv", header=0, sep=",")
x = full_health_data["Duration"]
y =
full_health_data ["Calorie_Burnage"]
slope, intercept, r, p, std_err =
stats.linregress(x, y)
def myfunc(x):
return slope * x + intercept
mymodel = list(map(myfunc, x))
print(mymodel)
plt.scatter(x,
y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0,
xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")
plt.show()
सारांश - औसत_पल्स के साथ कैलोरी_बर्नेज की भविष्यवाणी करना
हम व्याख्यात्मक चर के रूप में औसत_पल्स के साथ रैखिक प्रतिगमन फ़ंक्शन को कैसे सारांशित कर सकते हैं?
- 0.3296 का गुणांक, जिसका अर्थ है कि औसत_पल्स का कैलोरी_बर्नेज पर बहुत कम प्रभाव पड़ता है।
- उच्च पी-मान (0.824), जिसका अर्थ है कि हम औसत_पल्स और कैलोरी_बर्नेज के बीच संबंध समाप्त नहीं कर सकते हैं।
- 0 का R-वर्ग मान, जिसका अर्थ है कि रैखिक प्रतिगमन फ़ंक्शन लाइन डेटा को अच्छी तरह से फिट नहीं करती है।