회귀의 개념
회귀의 개념
- 입력변수와 출력변수 사이의 매핑(쌍) 관계를 찾는 것
- 입력변수와 출력변수 간 관계를 나타내는 직선 혹은 곡선을 찾는 것
- 지도학습의 일종
- 출력이 연속적인 실수인 경우 사용
회귀(regression)의 어원
regression(회귀)
는 “되돌아감” 또는 “후퇴”를 뜻하는 라틴어 regressio
에서 유래한 말로, 이 단어는 “뒤로”의 의미를 가진 re
와 “진행하다”라는 의미를 가진 gradi
가 결합된 형태이다. 19세기 초 심리학 및 통계 분야에서 “이전 상태로 되돌하감” 즉 “회귀”를 뜻하는 용어로 도입이 되었다.
유전학자 프랜시스 골턴이 부모의 키와 아이들의 키 사이에는 선형적인 관계가 있고, 부모의 극단적인 키가 자식 세대에서는 평균으로 돌아가는 경향이 있음을 발견했고, 칼 피어슨이 이것의 함수 관계를 도출해 수학적으로 정립하였다. 여기서 한 변수가 다른 변수에 회귀
하는 패턴이라는 regression
이라는 말로 경향성을 찾거나 예측하는 방식으로 의미가 확장되었다.
회귀의 예시
- 주가 예측
- 환율 예측
- 입지조건, 평수, 주변환경 등에 따른 부동산 가격 예측
회귀 학습의 목표
- 예측 오류(=예측값과 실제값 사이의 오차)를 최소화하는 최적의 회귀함수 f(x;Θ)를 찾는 것
- 즉, 실제값에 가까운 예측값을 내는 최적의 회귀함수를 찾는 것이 회귀 학습의 목표이다.
- 회귀 시스템의 목적함수 : 목표 출력값(실제값)과 시스템 출력값(예측값)의 차이에 대한 제곱 오차의 형태, 이를 최소화 하는 것이 목표
오차
- 회귀 시스템에서 말하는 오차란 실제 데이터와 회귀 시스템에서의 출력값 간의 차이를 말한다.
- 분석에서 오차에 제곱을 하는 이유 : 오차는 양수일 수도, 음수일 수도 있으므로 절대적인 오차를 계산하기 위해서는 부호를 통일해줘야 하며, 일반적으로는 최소제곱법(최소자승법)을 많이 사용한다.
회귀 모델의 입출력 관계
회귀 모델의 설명은 분류 모델보다는 간단하다. 학습 데이터의 집합(입력값인 특징벡터와, 해당 벡터에 대한 출력값의 쌍)을 통해 학습을 진행하면서, 입력값(특징벡터)와 출력값을 매핑하는, 즉 두 값의 관계를 설명할 수 있는 회귀함수 f(x;Θ)를 찾는다.
이후 테스트 혹은 현실 시계의 데이터를 회귀 함수에 입력하여, 이에대한 출력값을 예측하는 형태이다.
회귀 모델의 종류
모델 종류
모델 | 설명 |
---|---|
선형 회귀 | 독립 변수와 종속 변수 간의 선형 관계를 모델링하여 종속 변수의 값을 예측하는 회귀 기법입니다. 단순 선형 회귀는 직선의 방정식을 사용하고, 다중 선형 회귀는 여러 독립 변수를 사용하여 예측합니다. 주로 연속형 데이터를 예측하는 데 사용됩니다. |
비선형 회귀 | 독립 변수와 종속 변수 간의 비선형 관계를 모델링하는 회귀 기법입니다. 다항식 회귀, 지수 회귀, 로그 회귀 등 다양한 비선형 함수 형태를 사용할 수 있습니다. 데이터가 곡선 형태로 분포할 때 적합합니다. |
로지스틱 회귀 | 회귀를 분류의 문제에 적용한 방법입니다. 이름은 회귀이나, 분류 모델로 사용됩니다. 종속 변수가 범주형인 경우에 사용하는 회귀 기법으로, 확률에 기반하여 범주를 분류합니다. 0과 1 사이의 확률을 예측하기 위해 로지스틱 함수(시그모이드 함수)를 사용하며, 이진 분류와 다중 분류에 활용됩니다. |
릿지 회귀 | 선형 회귀에 L2 정규화를 추가하여 회귀 계수를 조정하는 방법입니다. 다중공선성 문제를 완화하고 과적합을 방지합니다. (일반 선형 회귀와 유사하나 과적합 방지를 위한 패널티가 추가됨) |
라쏘 회귀 | 릿지 회귀와 유사하지만, L1 정규화를 적용하여 일부 회귀 계수를 0으로 만들어 변수 선택을 동시에 수행하는 모델입니다. 중요한 변수 선별에 유리합니다. |
그 외
결정 트리 회귀, 랜덤 포레스트 회귀, K-최근접 이웃 회귀 등이 있다.
Reference
머신러닝 (이관용, 박혜영 공저)
Wikipedia - 회귀분석
etymonline - Origin of Regression