로지스틱 회귀가 무엇인가? 로지스틱회귀는 분석하고자 하는 대상(특징)이 2개 or 그 이상의 집단으로 나누어져 있을 때, 개별 관측치(개별 특징)들이 어느 집단에 분류될 수 있는지에 대해 분석하고 예측하는 모델을 개발하는 통계적 기법이다. 대표적으로 예를들면 회사 직원들의(연봉, 야근횟수, 복지, 업무 적합도)등의 연속형 자료를 통해서, (퇴사한다, 안한다)를 분류하는 Yes/No의 비율을 다루는 분석방법이다. 로지스틱 회귀의 종류 1) 이항 로지스틱 회귀(Binary Logistic Regression) - Sigmoid함수들을 이용한 2가지 결과만으로 분류 2) 다항 로지스틱 회귀(Multinomial Logistic Regression) - Softmax(소프트맥스)함수를 이용한 2개 이상의 분류 ..
합성곱 신경망(CNN)과 데이터 변형 합성곱(COnvolution) 합성곱의 의미, 배경지식 파악 Pooling Convolution Convolution을 사용하면 3차원 데이터의 공간적 정보를 유지한채 다음 레이어로 보낼 수 있음. 이미지와 컨볼루션 필터를 곱해서 새로운 이미지를 얻는 과정 필터는 가중치의 역할을 함 특징을 뽑아서, 분류를 진행 합성곱 특정(높이, 너비)를 갖은 필터(Filter, Kernel)를 일정간격(Stride)로 이동해가며 입력 데이터에 적용 합성곱 필터의 효과 합성곱 + 편향 필터를 적용한 후, 모든 원소에 편향을 더함(BroadCast) Padding 합성곱 수행전 입력과 출력의 데이터의 크기를 맞추기 위해서 사용 Stride 필터를 적용하는 위치 간격 1이면 1칸씩 이동..
탐색적 데이터 분석(EDA) 목차 머신러닝 프로젝트 진행과정 데이터 수집 전처리 탐색적 데이터 분석 모델 선택 평가 및 적용 탐색적 데이터 분석(EDA) 통계치 분석 및 시각화 상관관계 분석 머신러닝 프로젝트 진행과정(Work Flow) 데이터 수집(Data collection) 데이터 프로젝트를 하기 위해선 데이터가 필요하다. 웹 크롤링 과같은 방법(웹에서 데이터를 수집) 이미 쌓여 있는 DB 나 DataFile에서 데이터를 불러서 사용 데이터 전처리(Data Preprocessing) 수집한 데이터에는 중복된 값 이나, 이상한 값이 들어가있는 경우가 있다 이런 데이터를 머신러닝 입력에 적합한 형태러 변환하는 단계가 전처리 새로운 속성도 만들 기 위해Ex) 집의 가격 예측 가로 세로 데이터로 면적을 구..
서포트 벡터 머신은 분류 과제에 사용할 수 있는 머신러닝 지도학습 모델 즉, 분류를 위한 기준 선을 정의하는 모델이며 분류되지 않은 새로운 점이 나타나면 어느 쪽에 속하는지 확인해서 분류 과제를 수행할 수 있게 됨 어떤 선이 데이터를 분류할 최적의 선인가? SVM은 결정 경계(경계선)을 어떻게 정의하고 계산하는지 이해하는게 중요함. 용어정리 Support Vector : 경계선과 가장 가까이 있는 데이터 포인트 구분선(Decision Boundary) : 데이터를 구분하는 경계선 마진(Margin) : 구분하는 선과 Support Vector와의 거리 Support Vector(데이터 포인트) 마진을 최대화하여 구분선을 그으면, 예측하고자 하는 다른 데이터가 들어왔을 때 정확도가..