일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 우분투
- 데이터베이스
- 프로그래머스
- 운영체제
- 엑셀
- 역할
- 가상환경
- MySQL
- 디버깅
- OpenCV
- 예제
- 리눅스
- 에러
- 데이터분석
- 원격저장소
- matplotlib
- 코랩
- vscode
- 깃허브
- 라이브러리
- 플라스크
- 아나콘다
- visual studio code
- 단축키
- 머신러닝
- 파이썬
- 판다스
- SQL
- 기초
- 디렉토리
Archives
- Today
- Total
취미와 밥줄사이
[Machine Learning] - Logistic Regression 본문
로지스틱 회귀( Logistic Rregression)
- 분류에 사용한다. (Classification)
- 예) 나이 대 별로 이메일을 클릭해서 열지 말지를 분류해보자.
이메일을 클릭 할 사람과 안 할 사람으로 분류할 것이다
- 빨간점이 바로 데이터이며
- 액션의 0과 1이 바로 레이블이다.
- 레이블이 있다는 것은, `Supervisered Learning`이라는 뜻
이와 같은 라인으로 fitting
이렇게 비슷하게 생긴 함수가 이미 존재한다. 함수의 이름은 sigmoid function
따라서 Linear Regression 식을 y 값을 시그모이드에 대입해서, 일차방정식으로 만들면 다음과 같아진다.
이와 같은 식을 가진 regression을 Logistic Regression이라 한다.
이제 우리는 이를 가지고 두 개의 클래스로 분류할 수 있다. (클릭을 한다. 안한다. 두 개로)
- 확률로 나타낼 수 있게 되었다.
- p는 확률값을 나타낸다.
20대는 클릭할 확률이 0.7%, 40대는 85%, 50대는 99.4%
이 확률 값은, 위에서의 sigmoid function을 적용한 식을 통해 나온 값임을 기억한다.
Concludsion
- 최종 예측값은 0.5를 기준(threshold)으로 두개의 부류로 나눈다. 그 값은 0과 1이다.