취미와 밥줄사이

[Visualization] - Bar chart / 막대차트 (feat. 로그 스케일 사용이유) 본문

Python/Visualization

[Visualization] - Bar chart / 막대차트 (feat. 로그 스케일 사용이유)

취미와 밥줄사이 2021. 5. 8. 16:43
이 게시물은 캐글 노트북을 통해 스스르 공부한 내용을 복습하기 위한 작성한 글 입니다. 더 자세한 내용을 확인하고 싶은 분들은 하단의 링크를 참조해주세요!

 

 

Bar Plot / 막대차트


  • 막대 그래프 (또는 막대 차트)는 가장 일반적인 플롯 유형 중 하나입니다.
  • 숫자 변수와 범주 형 변수 간의 관계를 보여줍니다.
  • 예를 들어 막대 차트를 사용하여 여러 개인의 키를 표시 할 수 있습니다.
  • 막대 차트는 종종 매우 다른 히스토그램과 혼동됩니다. (입력으로 숫자 변수 만 있으며 분포를 보여줍니다.)
  • 일반적인 실수는 막대 그래프를 사용하여 각 그룹의 평균 값을 나타내는 것입니다.
  • 그룹당 여러 값이있는 경우 평균 만 표시하면 정보의 일부가 가장됩니다.
  • 이 경우 박스플롯 이나 바이올린 플롯을 고려해보십시오.
  • 최소한 그룹당 관측치 수와 각 그룹의 신뢰 구간을 표시해야합니다.

 

 

 

코드 및 예제


 


먼저 필요한 데이터셋을 불러옵니다. 이 데이터셋은 캐글의 데이터셋을 사용하였습니다.
이 데이터셋이 필요하신 분들은 하단의 첫 번째 링크를 참조해주세요



 

 

 

 


불러온 데이터셋은 성별을 기준으로 연봉의 평균을 집계한 데이터 프레임을 저장 하였습니다.

 

 

 

 




그래프는 plotly 라이브러리를 사용하여 만듭니다. 


      Parameter     

data_frame = : 데이터 프레임을 인자로 받습니다.
x = :  x축 값으로 받을 데이터프레임의 컬럼이름
y = : y축의 값으로 받을 데이터프레임의 컬럼이름
color = : 색상으로 구분할 컬럼의 이름
log_y = True : y축이 데카르트 좌표로 y스케일이 됩니다.
template = : 사용할 템플릿 이름




 

 

 

y축을 로그 스케일한 막대 그래프



 

 

 

 

※ 로그 스케일


1. 정수 스케일 대신 로그 스케일을 사용하는 이유는 두 가지가 있다. 

1) 시각적인 장점
- 차이가 급격하게 벌어진 과거 데이터 혹은 비교 데이터와의 차이를 시각적으로 파악하기 불편할 때 사용

2) 절대치가 아닌 변화율
- 절대치가 아닌 변화율을 그래프로 그림으로써 변화율을 확인할 수 있다.
- 상승 / 하락의 비율적인 측면을 살편볼 수 있다.
- 정수 스케일과는 다른 인사이트를 얻을 수 있다.

log의 역할은 큰 수를 같은 비율의 작은 수로 바꿔주는 것이다. 
log는 큰 수를 작게 만들고 복잡한 계산을 간편하게 하기위해 사용한다. 로그를 취하는 순간 그 수는 치수가 되어버리니, 값이 작아진다. 

로그를 취하는 이유는 큰 수를 작게 만들고, 복잡한 계산을 쉽게 만들어 데이터 분석 시 의미있는 결과를 도출하기 위한 것이다. 
데이터 간의 편차가 큰 경우에 로그를 취하면 의미있는 결과를 얻을 가능성이 높아진다.

 

 

 

Reference


www.kaggle.com/vanshjatana/a-simple-tutorial-to-data-visualization/notebook

 

A Simple Tutorial To Data Visualization

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

 

plotly.com/python-api-reference/generated/plotly.express.bar

 

plotly.express.bar — 4.14.3 documentation

hover_data (list of str or int, or Series or array-like, or dict) – Either a list of names of columns in data_frame, or pandas Series, or array_like objects or a dict with column names as keys, with values True (for default formatting) False (in order to

plotly.com

darrengwon.tistory.com/789

 

로그스케일의 의미와 그래프 그리기

❔ 우선, 로그 스케일이 뭘까 정수 스케일 대신 로그 스케일을 쓰는 이유는 두 가지가 있다. (사실상 같은 이유지만 두 관점으로 분리될 수 있다.) 1. 시각적인 장점 차이가 급격하게 벌어져 과거

darrengwon.tistory.com

 

leebaro.tistory.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EC%8B%9C-%EC%8B%9D%EC%97%90-%EB%A1%9C%EA%B7%B8%EB%A5%BC-%EC%B7%A8%ED%95%98%EB%8A%94-%EC%9D%B4%EC%9C%A0

 

데이터 분석 시 식에 로그를 취하는 이유

데이터 분석에서 log의 중요성에 대해서 이야기 해보겠다. 데이터 분석을 하기 위해 log를 취하는 이유는 한마디로 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위함이다. 데이터 간

leebaro.tistory.com