정규표현식 특정한 규칙을 가진 문자열의 집합을 표현하는데 사용하는 언어 형식 ※ 생각보다 데이터 전처리 할 때 많이 유용할 것 같아 따로 공부하고 정리해본다. 사용예시 1. 이름 데이터중 남여 성별을 나누고 싶을 때 name = 'Miss Kim' name2 = 'Mr Kim' test = re.compile('[A-Za-z]+') print(test.match(name)) print(test.match(name2)) 2. 다른 문자를 제거하고 전화번호만 뽑고 싶을 때 source = "@!!asd Skywarker!@ 02-123-4567 luke@daum.net" test = re.compile('[0-9-]+') print(test.findall(source)) 메타 문자 [] . * + {m, n..
실제 데이터를 활용한 EDA(Exploratory Data Analysis) ※ 수많은 양의 데이터를 한눈에 분석하기위한 방식이 필요. 사용 데이터 셋 sales_data : 한 브랜드의 2013.01 ~ 2015.10 까지 판매량을 조사한 데이터 1. 데이터 불러오기 import pandas as pd sales = pd.read_csv('sales.csv') 2. 먼저 데이터가 어떻게 구성되어 있는지 확인해보자 sales.info() sales.head() ※ 데이터의 유형에 맞게 Dtype을 변경해주는 작업도 필요하다. 해당 데이터 셋에서는 shop_id, item_id가 int 값이지만 범주형 데이터에 포함되어 평균, 최대값, 최빈값들이 의미가 없어 object로 변해도 무방하다. 3. 데이터 결..
Boxplot란? 데이터의 분포를 한 눈에 볼 수 있게 시각화하여 이상치(Outlier)등을 탐지할 수 있는 시각화 도구. median - 중앙값 IQR - 25% ~ 75%에 해당한 부분 75th Percentile - 제 3사분위수 25th Percentile - 제 1사분위수 Whisker - 최댓값, 최솟값 Outlier - 이상치 Median - 중앙값 데이터들을 정렬했을 때 중앙값 위치 선으로 표시 예를들어 데이터 [1, 5, 9, 10 ,15, 20, 34] 일 때, 중앙값은 10 # Numpy, pnadas, matplotlib 라이브러리 필요 import numpy as np import pandas as pd import matplotlib.pyplot as plt test = pd.D..