배 타다 개발자

[ML]데이터 프레임의 결측치 확인하기 본문

카테고리 없음

[ML]데이터 프레임의 결측치 확인하기

노 아 2022. 1. 7. 15:56
import numpy as np # 수치해서 전처리
import pandas as pd # 데이터 프레임 관리 모듈, 테이블으 쉽게 읽을 수 있도록 도와준다.
import matplotlib.pyplot as plt # 데이터 시각화
import seaborn as sns 

plt.style.use('seaborn') # 원하는 시각화 에셋
sns.set(font_scale=2.5)

import missingno as msno

import warnings # ignore warnings
warnings.filterwarnings('ignore')

%matplotlib inline


# pandas를 이용해서 csv파일을 읽어온다. 
df_train = pd.read_csv('../input/titanic/train.csv') 
df_train.head()

df_test = pd.read_csv('../input/titanic/test.csv')
df_train.head()


df_train.describe() # 테이블의 간단한 통계적 수치

df_test.describe()

df_train.columns

df_train[col] # 판다스의 기본 객체인 시리즈, 시리즈가 여러개 묶이면 데이터 프레임

 # col의 값 존재 유무를 boolean 으로 확인하고 총합을 구함
df_train[col].isnull().sum() 

# 데이터 프레임의 의 행,열 갯수 행은 사람의 수 열은 각 열의 개수를 의미한다.  
df_train[col].shape 

# 모든 컬럼의 Nan값의 존재 유무를 확인하는 코드 
for col in df_train.columns:
    msg = 'column: {:>10}\t Percent of NAN value: {:.2f}%'.format(col, 100 * df_train[col].isnull().sum() / df_train[col].shape[0])
    print(msg) 

#pandas indexing ilox 데이터 프레임의 값들을 가져와서 시각화 
msno.matrix(df=df_train.iloc[:,:], figsize=(8,8), color=(0.8, 0.5, 0.2))  

 

# Null data 의 분포를 볼 수 있다.
msno.bar(df=df_train.iloc[:,:], figsize =(8,8), color = (0.8, 0.5, 0.2))