취미와 밥줄사이

[Visualization] - missingno 라이브러리 사용법 본문

Python/Visualization

[Visualization] - missingno 라이브러리 사용법

취미와 밥줄사이 2021. 5. 7. 15:49

 

Introduction


데이터를 분석하거나 혹은 EDA를 하는 경우에 데이터 전처리 작업을 해야한다. 이상치를 발견하고 처리하거나 결측치를 확인하고 처리하는 작업이 반드시 필요하다. 

 

이상치나 결측치는 특히 머신러닝이나 예측, 분류를 하는 경우 문제를 일으키고 학습이 잘 되지 않는다. 

파이썬 판다스를 통해서 데이터를 처리하는 경우에 pd.info() , pd.isna().sum() 함수를 통해서 확인을 할 수도 있지만 시각화 라이브러리를 통해 더 간단하게 결측치를 확인할 수 있다. 

 

이러한 활동을 도와주는 것이 missingno 라이브러리 입니다. 

 

다음은 사용법이 입니다.

 

 

Content


1. 라이브러리 불러오기


필요한 라이브러리를 임포트한다. 여기 missingno 라이브러리를 통해서 결측치를 시각화 할 것이다.

 

 

2. 결측치가 있는 데이터 프레임 생성


예제로 사용할 결측치가 포함된 데이터 프레임을 생성하였다.

 

 

3.  missingno.matrix


msno.matrix를 사용하는 코드이다.

출력결과


매트릭스를 만들면 행에는 샘플 데이터의 수가 배열되어 있고 열에는 데이터프레임의 featrure들이 배치되어 있다.

하얀색의 빈 공간은 결측치를 의미한다. 
회색은 결측치가 아닌 데이터를 의미합니다.

 

 

 

 

4. missingno.bar

 

bar 차트를 통해서 결측치를 확인할 것이다.





위의 bar 차트를 통해서 결측치를 확인할 수 있습니다. 
좌측에 있는 y축은 percentage를 의미하고 그래프 내 최상단에 위치한 숫자는 결측치가 아닌 데이터의 숫자입니다.

우측에 있는 y축의 숫자는 샘플의 갯수를 의미합니다.

 

 

 

 

Reference


www.kaggle.com/kanncaa1/rare-visualization-tools

 

Rare Visualization Tools

Explore and run machine learning code with Kaggle Notebooks | Using data from Iris Species

www.kaggle.com