Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Flutter
- 포지션 파라미터
- 4KUnity
- 유니티
- named parameter
- unity 아이콘 깨짐
- 플러터
- MemoryBarrier
- 플러터폴더
- xml unity
- optional prameter
- 유니티최적화
- 플러터프로젝트
- Unity 4k 아이콘 깨짐
- c#
- C# memorybarrior
- 네임드 파라미터
- 다트기초
- flutter folder
- Csharp
- 폴더구성
- 메모리배리어
- XR
- position parameter
- 싱글톤
- OPCUA
- unity icon
- Unity
- memorymangement
- Unity3d
Archives
- Today
- Total
배 타다 개발자
[ML]데이터 프레임의 결측치 확인하기 본문
import numpy as np # 수치해서 전처리
import pandas as pd # 데이터 프레임 관리 모듈, 테이블으 쉽게 읽을 수 있도록 도와준다.
import matplotlib.pyplot as plt # 데이터 시각화
import seaborn as sns
plt.style.use('seaborn') # 원하는 시각화 에셋
sns.set(font_scale=2.5)
import missingno as msno
import warnings # ignore warnings
warnings.filterwarnings('ignore')
%matplotlib inline
# pandas를 이용해서 csv파일을 읽어온다.
df_train = pd.read_csv('../input/titanic/train.csv')
df_train.head()
df_test = pd.read_csv('../input/titanic/test.csv')
df_train.head()
df_train.describe() # 테이블의 간단한 통계적 수치
df_test.describe()
df_train.columns
df_train[col] # 판다스의 기본 객체인 시리즈, 시리즈가 여러개 묶이면 데이터 프레임
# col의 값 존재 유무를 boolean 으로 확인하고 총합을 구함
df_train[col].isnull().sum()
# 데이터 프레임의 의 행,열 갯수 행은 사람의 수 열은 각 열의 개수를 의미한다.
df_train[col].shape
# 모든 컬럼의 Nan값의 존재 유무를 확인하는 코드
for col in df_train.columns:
msg = 'column: {:>10}\t Percent of NAN value: {:.2f}%'.format(col, 100 * df_train[col].isnull().sum() / df_train[col].shape[0])
print(msg)
#pandas indexing ilox 데이터 프레임의 값들을 가져와서 시각화
msno.matrix(df=df_train.iloc[:,:], figsize=(8,8), color=(0.8, 0.5, 0.2))
# Null data 의 분포를 볼 수 있다.
msno.bar(df=df_train.iloc[:,:], figsize =(8,8), color = (0.8, 0.5, 0.2))