일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 판다스
- OpenCV
- 우분투
- 역할
- 엑셀
- vscode
- 단축키
- 아나콘다
- 코랩
- 기초
- 깃허브
- 예제
- 에러
- 프로그래머스
- 데이터분석
- 원격저장소
- visual studio code
- 데이터베이스
- 라이브러리
- 디렉토리
- 파이썬
- 플라스크
- 머신러닝
- 디버깅
- 가상환경
- 운영체제
- 리눅스
- SQL
- matplotlib
- MySQL
- Today
- Total
목록IT (412)
취미와 밥줄사이
Decision Tree 계속하여 이것인지 저것인지 결정한다. 분류하기 위해서, 단계별로 나누어서 처리한다. 이렇게 나누기 위해서는 ?
KNN (K-Nearest 0Neighbors) 새로운 데이터 생겼을 때, 이를 어디로 분류해야 할까요? 왜 빨간색으로 분류를 했을까요? KNN 알고리즘 ** - 내 주위에 몇 개의 이웃을 확인해 볼 것인가를 결정한다. == > K** 새로운 데이터 발생 시, Euclidean distance에 의해서, 가장 가까운 k개의 이웃을 택한다. K개의 이웃의 카테고리를 확인한다. 카테고리의 숫자가 많은 쪽으로, 새로운 데이터의 카테고리를 정해버린다.
로지스틱 회귀( Logistic Rregression) 분류에 사용한다. (Classification) 예) 나이 대 별로 이메일을 클릭해서 열지 말지를 분류해보자. 이메일을 클릭 할 사람과 안 할 사람으로 분류할 것이다 빨간점이 바로 데이터이며 액션의 0과 1이 바로 레이블이다. 레이블이 있다는 것은, `Supervisered Learning`이라는 뜻 이와 같은 라인으로 fitting 이렇게 비슷하게 생긴 함수가 이미 존재한다. 함수의 이름은 sigmoid function 따라서 Linear Regression 식을 y 값을 시그모이드에 대입해서, 일차방정식으로 만들면 다음과 같아진다. 이와 같은 식을 가진 regression을 Logistic Regression이라 한다. 이제 우리는 이를 가지고 ..
Linear Regression 이란 경력과 연봉의 관계를 분석하여, 경력이 주어졌을 떄 연봉을 예측하려 한다. 데이터를 살펴보니, 아래와 같은 그래프로 나왔다고 가정했을 때, 아래 그림처럼, 해당 분포를 만족하는 직선을 찾으려 하는 것이 목표다. 직선을 찾기 위해서는, 우리가 잘 아는 지석의 방정식을 이용하여, 직선의 기울기와 y절편을 구하면 되는 것이다. 여기에서 주의! x,y가 우리에게 데이터셋으로 주어졌다. 따라서 우리는 b를 찾아야 하는 것이다 즉, b0, b1의 값을 찾아 가는 과정을 학습이라고 부른다! 그렇다면 학습이란??? 바로 error(오차)를 줄여나가는 것이다. 아래는 오차를 나타낸다. 그렇다면 오차란? 그리고 직선은 처음에 어디서 가져오지? 모든 관측점(Observation)에서의 ..
상관분석 두 변수 간의 관계의 정도를 알아보기 위한 분석방법이다. 두 변수의 상관관계를 알아보기 위해 상관계수(Correlation coefficient)를 이용하며 그 공식은 아래와 같다. 상관계수 해석하기: 결과는 -1 ~ 1사이의 값
Regression 성능평가 (Regression Metrics) Mean Squeared Error (MSE) Root Mean Squared Error (RMSE) Mean Absolute Error (MAE) R Squared (R**2) Adjusted R Squared (R**2) Mean Square Percentage Error (MSPE) Mean Absolute Percentage Error (MAPE) Root Mean Squared Logarithmic Error (RMSLE) 분류의 문제에서의 성능 평가 방법 성능측정 True Positive(TP): 실제 True인 정답을 True라고 예측 (정답) False Positive(FP): 실제 False인 정답을 True라고 예측 (오..
Supervised Learning 우리는 iris꽃의 곷잎의 길이와 넓이, 꽃받침의 길이와 넓이 데이터를 가지고 있다. 이 데이터를 가지고, Iris 꽃 (붓꽃)의 품좀을 분류할 수 있는 분류기를 만들 수 있다. 따라서, 새로운 꽃잎의 길이와 넓이, 꽃받침의 길이와 넓이에 대한 데이터를 입력하면, 이 붓꽃이 어떤 품종인지 분석이 가능하다. 이렇게 분류할 수 있는 분류기(classifier)를 만들기 위해서는 데이터가 필요하며, 학습을 하기 위해서는, 이 데이터 뿐만 아니라 품종이라는 결과를 학습 시키기 위해서 데이터와 매핑된 품종 데이터도 함께 필요하다. 즉 품종에 대한 데이터를 Lable이라고 한다. 이러한 레이블이 있는 데이터를 학습시키는 것이 지도학습이다. 레이블 가지고 학습시키는 방법을 지도 학..
머신러닝으로 할 수 있는 것 편지봉투에 손으로 쓴 우편번호 숫자 자동 판별 의료 영상 이미지에 기반한, 종양 판단 의심되는 신용카드 거래 감지 블로그 글의 주제 분류 고객들의 취향이 비슷한 그룹으로 묶기 문제와 데이터 이해하기 가지고 있는 데이터가 내가 원하는 문제의 답을 가지고 있는가? 내 문제를 가장 잘 해결할 수 있는 머신러닝 방법은 무엇인가? 문제를 풀기에 충분한 데이터를 모았는가? 머신러닝의 성과를 어떻게 측정할 것인가? 전통적인 머신러닝 기법은 주로 정형 데이터를 다룬다. 딥러닝은 주로 비정형 데이터를 다루는데 사용된다. 지도학습과 비지도학습 - 지도학습 지도학습은 데이터에 대한 명시적인 레이블을 주어진 상태에서 컴퓨터를 학습시키는 알고리즘을 말합니다. 다시 말해 데이터 (input)와 이에 ..