회귀(Refression)
- 지도 학습을 이해하기
- Supervised 와 Unsupervised를 이해하기
- 회귀의 다양한 방식 알아보기
- 변수의 개수
- Cost 함수
- 경사하강법
- Regression 의 응용
- Lasso Regression
- Ridge Regression
- Elastic Net Regression
지도학습 이해하기지도학습
특정 input 값에 정답(label)이 있는 데이터가 주어진다.
Regression : 어떤 input 값을 특정 output값에 대응시켜주는 과정(
- ex) 면적의 값을 input이라고 하고 땅 가격을 output일때 어느 면적을 입력하면 기존의 데이터를 통한 학습을 통해 방정식을 만들어 땅 가격을 예측 할 수 있음.
Classification : 주어진 input이 어느 카테고리에 있는지 판별
Cost Function
모델식에 가장맞는 가중치를 찾기위해서
h(x) = Θ(Theta) + Θ(Theta)x /// ax+b 선형방정식
이때 Cost Function을 찾는 방법이 최소제곱법
- J(Θ0,Θ1) = 1/2m ∑(h(x) - y)^2
- Θ는 계수(가중치) x는 설명변수로
ex)
- x = [0.5, 0.8, 1.1, 1.5] // 역까지의 거리,
- y = [8.7, 7.5, 7.1, 6.8] // 가격 (단위 : 십만원)
- 가중치 Θ0 Θ1 을 구하여라 근사 값을 구해줘야함
1/2*4{ (Θ0+0.5Θ1 - 8.7)^2 + (Θ0+0.8Θ1 - 7.5)^2 + (Θ0+1.1Θ1 - 7.1)^2 + (Θ0+1.5Θ1 - 6.8)^2 = D
∂D / ∂Θ0 = 0 // Θ0에 대해서 편미분 하면 0이나와야함 ∂D / ∂Θ1 = 0 // Θ1에 대해서 편미분 하면 0이나와야함
편미분한 식으로 연립방정식을 해주면 h(x) = Θ0 + Θ1X 에서 Θ0,Θ1을 구할수 있음 Θ0 + Θ1X 이 방정식이 선형회귀
Gradient Descent
경사하강법
Cost함수 그래프를 그리면 2차원 함수 포물선이 그려진다.
D = 2차식 ( Θ0 , Θ1) 에의한 2차식 포물선이 나옴 // J(Θ0,Θ1) = 1/2m ∑(h(x) - y)^2
*Θ0 ≒ Θ0 - α(Learning rate)* ∂J(Θ0,Θ1) / ∂Θ0 *Θ1 ≒ Θ1 - α(Learning rate)* ∂J(Θ0,Θ1) / ∂Θ1
RegressionLasso Regression
Cost Function에 L1 정규화한 항을 추가
*정규화한항 : Overfitting 을 막기 위해서 사용하는 기법, Θ를 0 에 가깝게 만들어 모델의 복잡성을 줄임
1/2m ∑(h(x) - y)^2 +λ/2 ∑|Θj| (1부터 n까지의 합)
Ridge Regression
L2 정규화 항을 추가
1/2m ∑(h(x) - y)^2 +λ/2 ∑Θj^2 (1부터 n까지의 합)
* Lasso 는 중요한 몇 개변수 빼고 다른 계수를 다 0으로 만들어 버린다 * Ridge 는 계수를 0에 가깝게 만들지만 0은 아니라 복잡성이 있을 수 있음. Elastic Net Regression
두 개를 모두 다써서 만듬 좀더 안정적
'공부 > AI School 인공지능 여름캠프' 카테고리의 다른 글
머신러닝 의사결정트리(Decision Tree), 앙상블, 엔트로피 - [AI School] (0) | 2021.05.03 |
---|---|
머신러닝 분류 Classification - [AI School] (0) | 2021.05.03 |
파이썬 사이킷 런(sklearn) 이용 - [AI School] (0) | 2021.05.03 |
탐색적 데이터 분석(EDA) 정리 - [AI School] (0) | 2021.05.03 |
파이썬 데이터 분석을 위한 함수 정리(Numpy, Pandas, Matplotlib) - [AI School] (0) | 2021.05.03 |