पांडा - खाली कक्षों की सफाई
खाली सेल
जब आप डेटा का विश्लेषण करते हैं तो खाली सेल संभावित रूप से आपको गलत परिणाम दे सकते हैं।
पंक्तियां हटाएं
खाली सेल से निपटने का एक तरीका उन पंक्तियों को हटाना है जिनमें खाली सेल हैं।
यह आमतौर पर ठीक है, क्योंकि डेटा सेट बहुत बड़े हो सकते हैं, और कुछ पंक्तियों को हटाने से परिणाम पर कोई बड़ा प्रभाव नहीं पड़ेगा।
उदाहरण
बिना खाली सेल वाला एक नया डेटा फ़्रेम लौटाएं:
import pandas as pd
df = pd.read_csv('data.csv')
new_df = df.dropna()
print(new_df.to_string())
हमारे सफाई उदाहरणों में हम 'dirtydata.csv' नामक CSV फ़ाइल का उपयोग करेंगे।
गंदाडेटा.सीएसवी डाउनलोड करें । या गंदा डेटा खोलें। csv
नोट: डिफ़ॉल्ट रूप से, dropna()
विधि एक नया डेटाफ़्रेम लौटाती है, और मूल को नहीं बदलेगी।
यदि आप मूल डेटाफ़्रेम को बदलना चाहते हैं, तो
inplace = True
तर्क का उपयोग करें:
उदाहरण
NULL मानों वाली सभी पंक्तियाँ निकालें:
import pandas as pd
df = pd.read_csv('data.csv')
df.dropna(inplace = True)
print(df.to_string())
नोट: अब, dropna(inplace = True)
वसीयत एक नया डेटाफ़्रेम नहीं लौटाएगा, लेकिन यह मूल डेटाफ़्रेम से NULL मानों वाली सभी पंक्तियों को हटा देगा।
खाली मान बदलें
खाली कोशिकाओं से निपटने का दूसरा तरीका इसके बजाय एक नया मान सम्मिलित करना है।
इस तरह आपको केवल कुछ खाली कक्षों के कारण संपूर्ण पंक्तियों को हटाने की आवश्यकता नहीं है।
fillna()
विधि हमें खाली कोशिकाओं को एक मान से बदलने की अनुमति देती है:
उदाहरण
130 नंबर के साथ NULL मान बदलें:
import pandas as pd
df = pd.read_csv('data.csv')
df.fillna(130, inplace = True)
केवल निर्दिष्ट कॉलम के लिए बदलें
उपरोक्त उदाहरण संपूर्ण डेटा फ़्रेम में सभी रिक्त कक्षों को प्रतिस्थापित करता है।
केवल एक कॉलम के लिए खाली मानों को बदलने के लिए, DataFrame के लिए कॉलम नाम निर्दिष्ट करें:
उदाहरण
संख्या 130 के साथ "कैलोरी" कॉलम में NULL मान बदलें:
import pandas as pd
df = pd.read_csv('data.csv')
df["Calories"].fillna(130, inplace = True)
प्रमाणन हासिल करें!
$10 नामांकन
माध्य, माध्यिका या बहुलक का उपयोग करके बदलें
खाली सेल को बदलने का एक सामान्य तरीका है, कॉलम के माध्य, माध्यिका या मोड मान की गणना करना।
पांडा निर्दिष्ट कॉलम के लिए संबंधित मानों की गणना करने के लिए mean()
median()
और विधियों का उपयोग करता है:mode()
उदाहरण
MEAN की गणना करें, और इसके साथ किसी भी खाली मान को बदलें:
import pandas as pd
df = pd.read_csv('data.csv')
x = df["Calories"].mean()
df["Calories"].fillna(x, inplace = True)
माध्य = औसत मान (मानों की संख्या से विभाजित सभी मानों का योग)।
उदाहरण
माध्यिका की गणना करें, और इसके साथ किसी भी खाली मान को बदलें:
import pandas as pd
df = pd.read_csv('data.csv')
x = df["Calories"].median()
df["Calories"].fillna(x, inplace = True)
माध्यिका = बीच में मान, जब आप सभी मानों को आरोही क्रम में क्रमबद्ध कर लेते हैं।
उदाहरण
मोड की गणना करें, और इसके साथ किसी भी खाली मान को बदलें:
import pandas as pd
df = pd.read_csv('data.csv')
x = df["Calories"].mode()[0]
df["Calories"].fillna(x, inplace = True)
मोड = वह मान जो सबसे अधिक बार प्रकट होता है।