파이썬

파이썬/데이터 전처리

정규 표현식 파이썬 예제를 통한 데이터 전처리 실제 활용- [데이터 전처리]

정규표현식 특정한 규칙을 가진 문자열의 집합을 표현하는데 사용하는 언어 형식 ※ 생각보다 데이터 전처리 할 때 많이 유용할 것 같아 따로 공부하고 정리해본다. 사용예시 1. 이름 데이터중 남여 성별을 나누고 싶을 때 name = 'Miss Kim' name2 = 'Mr Kim' test = re.compile('[A-Za-z]+') print(test.match(name)) print(test.match(name2)) 2. 다른 문자를 제거하고 전화번호만 뽑고 싶을 때 source = "@!!asd Skywarker!@ 02-123-4567 luke@daum.net" test = re.compile('[0-9-]+') print(test.findall(source)) 메타 문자 [] . * + {m, n..

파이썬/데이터 전처리

Pandas를 이용한 데이터 전처리 및 분석 EDA(판매 데이터 활용) - [데이터 전처리]

실제 데이터를 활용한 EDA(Exploratory Data Analysis) ※ 수많은 양의 데이터를 한눈에 분석하기위한 방식이 필요. 사용 데이터 셋 sales_data : 한 브랜드의 2013.01 ~ 2015.10 까지 판매량을 조사한 데이터 1. 데이터 불러오기 import pandas as pd sales = pd.read_csv('sales.csv') 2. 먼저 데이터가 어떻게 구성되어 있는지 확인해보자 sales.info() sales.head() ※ 데이터의 유형에 맞게 Dtype을 변경해주는 작업도 필요하다. 해당 데이터 셋에서는 shop_id, item_id가 int 값이지만 범주형 데이터에 포함되어 평균, 최대값, 최빈값들이 의미가 없어 object로 변해도 무방하다. 3. 데이터 결..

파이썬/데이터 전처리

ML, DL학습에 필요한 Pandas 전처리 방식 모음 정리 - [데이터 전처리]

Pandas 데이터프레임 표 import pandas as pd - Pandas Series 데이터프레임 생성 pd.Series(data = list) - 리스트 데이터프레임 생성 pd.Series(data = dic) - 사전 데이터프레임 생성 a1 = {4 : 123, 9 : 456, 3:789} a2 = [1,2,3,4,5] t1 = pd.Series(data = a1) t2 = pd.Series(data = a2) - Pandas 데이터 프레임 생성 pd.DataFrame(data = 데이터, columns = ['열1', '열2'...], index = ['인덱스1', '인덱스2', ....]) test = pd.DataFrame(data = [1,2,3], columns = ['test1'],..

파이썬/데이터 전처리

Boxplot 상자도표를 통한 이상치 탐지 - [데이터 전처리]

Boxplot란? 데이터의 분포를 한 눈에 볼 수 있게 시각화하여 이상치(Outlier)등을 탐지할 수 있는 시각화 도구. median - 중앙값 IQR - 25% ~ 75%에 해당한 부분 75th Percentile - 제 3사분위수 25th Percentile - 제 1사분위수 Whisker - 최댓값, 최솟값 Outlier - 이상치 Median - 중앙값 데이터들을 정렬했을 때 중앙값 위치 선으로 표시 예를들어 데이터 [1, 5, 9, 10 ,15, 20, 34] 일 때, 중앙값은 10 # Numpy, pnadas, matplotlib 라이브러리 필요 import numpy as np import pandas as pd import matplotlib.pyplot as plt test = pd.D..

1Seok
'파이썬' 카테고리의 글 목록