डेटा साइंस - रिग्रेशन टेबल: R-Squared


आर - चुकता

R-वर्ग और समायोजित R-वर्ग वर्णन करता है कि रेखीय प्रतिगमन मॉडल डेटा बिंदुओं को कितनी अच्छी तरह फिट करता है:

प्रतिगमन तालिका - गुणांक के आँकड़े

R-Squared का मान हमेशा 0 से 1 (0% से 100%) के बीच होता है।

  • एक उच्च आर-वर्ग मान का अर्थ है कि कई डेटा बिंदु रैखिक प्रतिगमन फ़ंक्शन लाइन के करीब हैं।
  • कम R-वर्ग मान का मतलब है कि रैखिक प्रतिगमन फ़ंक्शन लाइन डेटा को अच्छी तरह से फिट नहीं करती है।

निम्न R का दृश्य उदाहरण - चुकता मान (0.00)

हमारा प्रतिगमन मॉडल शून्य का आर-वर्ग मान दिखाता है, जिसका अर्थ है कि रैखिक प्रतिगमन फ़ंक्शन लाइन डेटा को अच्छी तरह से फिट नहीं करती है।

यह तब देखा जा सकता है जब हम औसत_पल्स और कैलोरी_बर्नेज के डेटा बिंदुओं के माध्यम से रैखिक प्रतिगमन फ़ंक्शन की साजिश करते हैं।

निम्न R - चुकता मान (0.00)

उच्च R - चुकता मान का दृश्य उदाहरण (0.79)

हालांकि, अगर हम Duration और Calorie_Burnage प्लॉट करते हैं , तो R-Squared बढ़ जाता है। यहां, हम देखते हैं कि डेटा बिंदु रैखिक प्रतिगमन फ़ंक्शन लाइन के करीब हैं:

निम्न R - चुकता मान (0.00)

यहाँ पायथन में कोड है:

उदाहरण

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

full_health_data = pd.read_csv("data.csv", header=0, sep=",")

x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]

slope, intercept, r, p, std_err = stats.linregress(x, y)

def myfunc(x):
 return slope * x + intercept

mymodel = list(map(myfunc, x))

print(mymodel)

plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")

plt.show()

सारांश - औसत_पल्स के साथ कैलोरी_बर्नेज की भविष्यवाणी करना

हम व्याख्यात्मक चर के रूप में औसत_पल्स के साथ रैखिक प्रतिगमन फ़ंक्शन को कैसे सारांशित कर सकते हैं?

  • 0.3296 का गुणांक, जिसका अर्थ है कि औसत_पल्स का कैलोरी_बर्नेज पर बहुत कम प्रभाव पड़ता है।
  • उच्च पी-मान (0.824), जिसका अर्थ है कि हम औसत_पल्स और कैलोरी_बर्नेज के बीच संबंध समाप्त नहीं कर सकते हैं।
  • 0 का R-वर्ग मान, जिसका अर्थ है कि रैखिक प्रतिगमन फ़ंक्शन लाइन डेटा को अच्छी तरह से फिट नहीं करती है।