일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 깃허브
- OpenCV
- 에러
- 데이터베이스
- 라이브러리
- 엑셀
- vscode
- 머신러닝
- 가상환경
- 코랩
- 원격저장소
- 프로그래머스
- SQL
- 우분투
- MySQL
- 단축키
- 운영체제
- 예제
- 플라스크
- visual studio code
- 판다스
- 아나콘다
- matplotlib
- 데이터분석
- 기초
- 리눅스
- 파이썬
- 디버깅
- 역할
- 디렉토리
- Today
- Total
목록Python/Pandas (7)
취미와 밥줄사이
Introduction 데이터 분석에서는 가장 중요한 과정 중 하나가 데이터 전처리하는 과정입니다. 결측치를 다루고 이상치를 다루며, 입력된 데이터의 일관성을 유지하는 과정을 의미합니다. 판 다스의 데이터 프레임에서 column의 value을 변경하는 방법을 소개하려 합니다. 데이터는 공공데이터 포털의 데이터를 이용하였습니다. www.data.go.kr/data/15059999/fileData.do 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr Content 1. loc 메서드 사용해서 변경하기 데이터프레임.loc[..
판다스의 데이터 프레임으로 csv파일을 불러올 때 사용하는 명령어인 pd.read_csv() 파라미터 사용법을 정리한 게시물입니다. 1. csv 파일 불러오기: pd.read_csv( filepath_or_buffer = :) 2. n번째 행까지 불러오기: nrows = 3. 컬럼을 index로 지정: index_col = 4. 컬럼(열 이름)으로 사용할 행 지정: header = 5. 파일 형식에 따른 구분자 지정: sep = csv 파일의 경우 sep = ',' tsv 파일의 경우 sep = '\t' 6. 결측값을 불러올지 여부: na_filter = 결측치를 불러온다: na_filter = True 결측치를 불러오지 않는다: na_filter = False 7. 데이터프레임을 CSV 파일로 저장하기..
INTRODUCTION 파이썬은 데이터 분석을 하는데 유용한 라이브러리가 많습니다. 대표적인 라이브러리로는 pandas 라이브러리가 있습니다. 판다스를 통해 데이터 전처리 그리고 데이터 분석을 한 데이터를 엑셀로 공유하고 싶은 상황이 발생할 때가 있습니다. 이럴 떄는 간단하게 데이터프레임을 엑셀 혹은 csv파일로 저장하여 공유할 수가 있습니다. pd.to_excel() # 엑셀 파일로 저장 pd.to_csv() # csv 파일로 저장하기 Parameter - pd.to_excel() excel_writer : 저장할 파일경로 sheet_name : 시트 이름 설정 index : 인덱스 포함여부 설정 header : header 포함여부 na_rep 결측치 표현방법 설정 CONTENT - 예제 캐글 노트북..
isintance( 값, 자료형) 첫 번째 인자인 값의 자료형이 두 번째 인자의 자료형과 동일하면 True 를 반환하고 동일하지 않다면 False를 반환한다. Syntax isinstance( object, type) Prameter Values object = 객체를 인자로 받는다. class_or_tuple = 클래스 혹은 자료형을 인자로 받는다. Reference steadiness-193.tistory.com/255 판다스 - isinstance [isinstace(값, 자료형)] * 자료형은 str, float, list, tuple 등 가능하다. 값의 자료형이 인자에 있는 자료형과 동일하다면 True 그렇지 않다면 False를 반환 결과를 True or False로 반환한다. 데이터 프레임....
판다스를 통해서 데이터 분석을 진행하다보면 데이터 프레임 내의 value에 문자열로 묶여진 리스트나, 딕셔너리를 맞딱 뜨리는 경욱 발생한다. 이러한 상황에서는 가장 외곽에 있는 문자열을 제거해야 데이터를 다루기가 쉬워진다. 이러한 상황에서는 ast 모듈의 literal_eval 함수를 사용할 수가 있다. {from ast import literal_eval literal_eval('string으로 둘러싸인 리스트 혹은 딕셔너리') # 리스트 혹은 딕셔너리 기호 외곽의 ''가 사라진다. # 튜플일 경우에는 '' 기호 ()과 함께 사라진다.}
에러: UnicodeDecodeError Pandas 라이브러리를 통해서 csv 파일을 임포트하는 경우(pd.read_csv('파일경로') 에 아래와 같은 에러가 발생하는 경우가 있다. 이것은 인코딩 방식이 달라서 발생하는 문제이다. UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb3 in position 0: invalid start byte 이러한 상황에서는 다음과 같은 파라미터를 추가하면 해결할 수가 있다. pd.read_csv('파일경로', encoding = 'cp949')를 추가하면 된다. encoding = 'cp949'를 추가하면 파일을 올바르게 읽어올 수 있다. `
1. merge Pandas에서 두 개의 데이터프레임의 결합하는 방식은 대표적으로 3가지가 있다. merge, join, concat 이렇게 3개의 메소드가 존재한다. merge와 join, concat 상황에 따라 다르게 사용된다. 오늘은 merge 메서드의 사용법에 대해서 알아보고자 한다. Pandas의 merge 메서드는 MySQL의 JOIN 키워드와 기능이 매우 유사하다. 기준열(공통속성)을 가진 열을 기준으로 데이터프레임을 병합하는 기능을 가진다. merge 메서드의 how파라미터를 어떻게 사용하는지에 따라 결합방식이 달라지고 , on = 파라미터를 통해서 기준열을 설정할 수 있다. 2. 데이터프레임 생성 # 라이브러리 가져오기 import pandas as pd # 데이터프레임 생성 book_..