취미와 밥줄사이
[Machine Learning] - Logistic Regression 본문
로지스틱 회귀( Logistic Rregression)
- 분류에 사용한다. (Classification)
- 예) 나이 대 별로 이메일을 클릭해서 열지 말지를 분류해보자.
이메일을 클릭 할 사람과 안 할 사람으로 분류할 것이다
- 빨간점이 바로 데이터이며
- 액션의 0과 1이 바로 레이블이다.
- 레이블이 있다는 것은, `Supervisered Learning`이라는 뜻
이와 같은 라인으로 fitting
이렇게 비슷하게 생긴 함수가 이미 존재한다. 함수의 이름은 sigmoid function
따라서 Linear Regression 식을 y 값을 시그모이드에 대입해서, 일차방정식으로 만들면 다음과 같아진다.
이와 같은 식을 가진 regression을 Logistic Regression이라 한다.
이제 우리는 이를 가지고 두 개의 클래스로 분류할 수 있다. (클릭을 한다. 안한다. 두 개로)
- 확률로 나타낼 수 있게 되었다.
- p는 확률값을 나타낸다.
20대는 클릭할 확률이 0.7%, 40대는 85%, 50대는 99.4%
이 확률 값은, 위에서의 sigmoid function을 적용한 식을 통해 나온 값임을 기억한다.
Concludsion
- 최종 예측값은 0.5를 기준(threshold)으로 두개의 부류로 나눈다. 그 값은 0과 1이다.