일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 에러
- 코랩
- 원격저장소
- 디버깅
- 라이브러리
- 디렉토리
- matplotlib
- 우분투
- 플라스크
- 엑셀
- MySQL
- 파이썬
- 데이터베이스
- 머신러닝
- 프로그래머스
- 데이터분석
- 운영체제
- 깃허브
- 단축키
- 예제
- 리눅스
- 역할
- visual studio code
- SQL
- 가상환경
- 판다스
- 아나콘다
- vscode
- 기초
- OpenCV
Archives
- Today
- Total
취미와 밥줄사이
[Machine Learning] - Supervised Learning 본문
Supervised Learning
우리는 iris꽃의 곷잎의 길이와 넓이, 꽃받침의 길이와 넓이 데이터를 가지고 있다. 이 데이터를 가지고, Iris 꽃 (붓꽃)의 품좀을 분류할 수 있는 분류기를 만들 수 있다. 따라서, 새로운 꽃잎의 길이와 넓이, 꽃받침의 길이와 넓이에 대한 데이터를 입력하면, 이 붓꽃이 어떤 품종인지 분석이 가능하다.
이렇게 분류할 수 있는 분류기(classifier)를 만들기 위해서는 데이터가 필요하며, 학습을 하기 위해서는, 이 데이터 뿐만 아니라 품종이라는 결과를 학습 시키기 위해서 데이터와 매핑된 품종 데이터도 함께 필요하다. 즉 품종에 대한 데이터를
Lable이라고 한다. 이러한 레이블이 있는 데이터를 학습시키는 것이지도학습
이다.
레이블 가지고 학습시키는 방법을 지도 학습(Supervised Learning)라고 한다.
Spervided는 두 가지 문제를 해결할 수 있다.
Regression(회귀)와 Classification(분류)
Regression
- ex) 어떤 사람의 교육수준, 나이, 주거지를 바탕으로
연간 소득
을 예측하는 것 - ex) 옥수수 농장에서 전년도 수확량과 날씨, 고용 인원수 등으로
올해 수확량
을 예측하는 것
Classification
- ex) 웹사이트가 어떤 언어로 되어있는가?
- ex) 사진을 보고, 고양이 인지 강아지 인지, 소인지 분류
Trainig Set과 Test Set
- 훈련이란, 데이터를 입력하고, 그 결과인 레이블이 나오도록 만드는 과정.
- 즉, 데이터와 레이블을 통해 학습을 시키는 과정
- 테스트란, 학습이 완료된 분류기에, 학습에 사용하지 않은 데이터를 넣어서, 정답을 맞추는지 확인하는 작업
Categorical 문자 데이터 처리 방법!
- 데이터를 확인하고, 컴퓨터가 이해할 수 있도록 바꿔야 한다.
- 컴퓨터는 숫자로 처리한다.
- 숫자가 아닌 데이터 중에서, 카테고리로 판단되는 데이터는, 숫자로 바꿔줄 수 있다.
Feature Scaling
학습 결과: 3가지
- Generalization(일반화)
- 모델이 처음 보는 데이터에 대해 정확하게 예측할 수 있으며 이를 훈련 세트에서 테스트 세트로 일반화 되었다고 함.
- Overfiting(과대적합) / Underfitting(과소적합)
- 오버핏팅이란 학습한 결과과, 학습에 사용된 데이터와 거의 일치하며, 새로운 데이터가 들어왔을 때, 예측이 틀려 버리는 상태
- 새로운 데이터에 일반화되기 어렵다.
- 언더핏팅은 그 반대
Reference
94ung.tistory.com/38(https://ichi.pro/ko/label-inkoding-gwa-won-has-inkoding-255778339871323)