탐색적 데이터 분석(EDA)
- 목차
- 머신러닝 프로젝트 진행과정
- 데이터 수집
- 전처리
- 탐색적 데이터 분석
- 모델 선택
- 평가 및 적용
- 탐색적 데이터 분석(EDA)
- 통계치 분석 및 시각화 상관관계 분석
- 머신러닝 프로젝트 진행과정
머신러닝 프로젝트 진행과정(Work Flow)
- 데이터 수집(Data collection)
- 데이터 프로젝트를 하기 위해선 데이터가 필요하다.
- 웹 크롤링 과같은 방법(웹에서 데이터를 수집)
- 이미 쌓여 있는 DB 나 DataFile에서 데이터를 불러서 사용
- 데이터 전처리(Data Preprocessing)
- 수집한 데이터에는 중복된 값 이나, 이상한 값이 들어가있는 경우가 있다
- 이런 데이터를 머신러닝 입력에 적합한 형태러 변환하는 단계가 전처리
- 새로운 속성도 만들 기 위해Ex) 집의 가격 예측 가로 세로 데이터로 면적을 구할수 있음
- 데이터 스케일링, 더미화, 차원축소 등 모두 전처리다.
- 탐색적 데이터 분석(EDA)
- 데이터 분석가가 주어진 데이터의 특징을 찾고,숨겨진 패턴을 발견하는 과정을 EDA
- EX) 데이터를 시각화 하여 히스토그램,산포도,상관관계를 알아보는 일 등
- 모델선택
- 모델이란 새로운 입력 데이터를 받았을때 예측값을 계산하는 방법
- Ex)집의면적, 방의 갯수, 층수 등의 데이터로 집갑 예측 알고리즘 이에 맞는 모델을 선택 하는건 분석가의 몫
모델을 선택한다? * 첫째 예측값 계산 알고리즘 선택 * 둘째 모델이 사용할 속성들을 선택한다 * 셋째 모델을 조절하는 버튼인 하이퍼파라미터 선택
- 평가 및 적용
- 모델 평가에서는 평가용 데이터 셋은(Test data)는 모델 학습과정에 쓰이지 않는다.
- 평가 과정 목정이 모델이 얼마나 새로운 데이터에대해 일반화가 가능한지 측정하는 것이기 때문에
Parameter vs Hyperparameter
- Parameter
- 모델 내부에서 확인이 가능한 변수. 즉, 데이터를 통해서 산출이 가능한 값
- Parameter가 모델의 능력을 결정
- Parameter는 측정되거나 데이터로부터 학습되어짐
- 학습된 모델의 일부로 저장
- 인공신경망의 가중치
- SVM에서의 서포트 벡터
- 선형회귀나 로지스틱 회귀 분석에서의 결정계수
- 모델 내부에서 확인이 가능한 변수. 즉, 데이터를 통해서 산출이 가능한 값
- Hyperparameter
- 데이터 분석을 통해 얻는 값이아님. 외국적인 요소
- 모델의 Parameter값을 측정하기 위해 알고리즘 구현 과정에 사용
- 주로 알고리즘 사용자에 의해 정해짐
- 예측 알고리즘 모델링의 문제점을 위해 조절됨
- Learning rate (학습률)
- SVM 에서 Cost function C
- KNN에서 K갯수 등등
- 데이터 분석을 통해 얻는 값이아님. 외국적인 요소
'공부 > AI School 인공지능 여름캠프' 카테고리의 다른 글
머신러닝 의사결정트리(Decision Tree), 앙상블, 엔트로피 - [AI School] (0) | 2021.05.03 |
---|---|
머신러닝 분류 Classification - [AI School] (0) | 2021.05.03 |
머신러닝 회귀(Regression) 정리 - [AI School] (0) | 2021.05.03 |
파이썬 사이킷 런(sklearn) 이용 - [AI School] (0) | 2021.05.03 |
파이썬 데이터 분석을 위한 함수 정리(Numpy, Pandas, Matplotlib) - [AI School] (0) | 2021.05.03 |