보편 근사 정리 Universal Approximation Theorem

이름 뜻 풀이

  • Universal : 보편적인, 모든 것에 적용되는, 전 세계적인
  • Approximation : 근사, 근사값, 정확한 값에 가까운 값
  • Theorem : 정리, 증명된 명제.
  • 의역을 보태 보편적으로 모든 문제에 대해 근사할 수 있는 능력에 관한 정리 가 된다.

정의

  • 인공 신경망의 기본적인 능력을 설명하는 이론으로
  • MLP의 너비와 깊이를 충분히 들리면, 어떠한 연속 함수도 표현이 가능하다라는 정리이다.
  • 다른 말로 하면, 인공 신경망을 통해 현실 세계의 모든 복잡한 문제를 근사하게 설명(또는 모방)할 수 있다는 것이다.
  • 단, 문제에 맞는 충분히 큰 모델 등, 일정 조건들이 필요하다.

MLP : multi-layer perceptron - 다층 퍼셉트론

현실에서 보편 근사 모델은?

  • 현실 세계에서는 각각의 문제 분야에 알맞은 각기 다른 모델이 사용되는 것을 볼 수 있다.
  • MLP 가 모든 모델의 상위 개념이라면 MLP만 쓰겠지만, 현실적으로는 그러하지 않다.
  • 현실에서는 각 분야에 알맞은 특정 모델들이 사용되며, 예를 들어 금융권에서 사용되는 선형회귀 모델이 있다.
  • 선형회귀 모델은 데이터에 선형적 관계가 있어야 한다는 제약이 있지만, 대신 해석할 수 있다는 장점이 있다.
  • 이처럼 각각의 모델들은 각각의 제약을 가지는 대신, 얻을 수 있는 특수한 이득이 있는 것이다.

귀납 편향 Inductive Bias

이름 뜻 풀이

  • Inductive : 귀납적인(실제 사례들에서 일반화된 원리나 패턴을 이끌어내는 추론 형식)
  • Bias : 편향, 편견, 성향, 치우침

정의

  • 모델이 데이터를 학습하기 전에, 알고리즘 설계 시 미리 주입된 가정이나 제약 조건 또는 힌트
  • 머신러닝 모델의 학습을 특정 방향으로 유도하는 역할을 한다.
  • 머신러닝은 데이터(=사례)들로부터 학습을 한다. -> 귀납적
  • learning bias, 학습 편향이라고도 부른다.

목적과 영향

  • 제한된 데이터만으로도 현실의 복잡한 규칙을 어느 정도 파악할 수 있게 하기 위함
  • 이러한 편향은 모델이 특정 문제에 대한 해결력이나 특징 또는 제약을 가지게 한다.

예시

모델 가정(귀납 편향)
선형 회귀 모델 변수 X, Y 사이에 선형적 관계가 있을 것이다.
오컴의 면도날 원칙에 기초
KNN 가까운 위치에 있는 두 데이터의 클래스는 비슷할 것이다.
GBT, 의사결정나무 개별 변수들을 순차적으로 고려하면 최종적 판단이 가능하다.
=변수들의 순차적인 조합이 현상을 나타낸다.
CNN 이미지의 한 픽셀은 멀리 떨어진 픽셀보다 가까운 주변 픽셀과 밀접한 관련이 있을 것이다.

귀납 편향과 보편 근사 모델

  • 즉, 모델은 특정한 가정을 가지며, 그러한 가정과 잘 들어맞지 않는 문제는 해당 모델로 해결이 어렵다.
  • 반대로, 모델이 가진 가정이 성립하는 데이터가 주어졌을 때, 그 모델은 좋은 성능을 발휘할 수 있다.
  • 예를 들어, 이미지에 대해 GBT는 과적합 확률이 높지만, 구조가 깊은 CNN은 효과적으로 이미지를 처리할 수 있다.
  • 때문에 개발자는 자신이 사용하려는 모델의 가정을 잘 알아야 효과적인 모델을 만들 수 있다.

CNN과 Transformer의 예시

  • AI 분야의 혁신은, 특정 분야의 문제를 잘 해결할 수 있는 구조를 가진 AI 모델의 등장을 통해 이뤄졌다.
  • 2012년의 CNN, 2017년의 Transformer가 이에 해당된다.
  • 여기서 “특정 분야의 문제를 잘 해결할 수 있는 구조”라는 것이 바로 Inductive Bias에 해당된다.
  • 예를 들어 CNN 은 이미지에, Transformer는 텍스트 데이터에 잘 맞는 Inductive Bias가 가미된 모델이다.
  • 다른 예시로 추천 분야에서는 Matrix Factorization 구조가 많이 사용된다.

딥러닝이 만능은 아니다

딥러닝이 모든 분야에 만능은 아닌 반증

  • 딥러닝(보통 CNN 혹은 Transformer) 모델들이 모든 분야의 데이터를 다 잘 학습할 수 있는 건 아니다.
  • 실제로 tabular 데이터에서는 GBT 가 딥러닝 모델에 비해 더 좋은 성능을 보인다.

다양한 모델을 배워야 하는 이유

  • 밭을 갈 때는 쟁기가, 나무를 벨 때에는 도끼가 필요하다. 전기톱이 발명됐다고 해서 전기톱으로 밭을 갈려고 해서는 안된다.
  • 각 모델은 잘하는 분야가 있기 때문에, 꼭 딥러닝 모델이라고 해서 만능은 아닌 것이다.
  • 따라서 주어진 문제와 데이터에 알맞은 모델을 선택하기 위해 다양한 모델을 공부해야 한다.
  • 회사에서 상사가, 혹은 고객이 “딥러닝을 적용하면 되지 않냐”라고 한다면, 위 내용을 염두에 두고 소통해야 한다.
  • 우리는 대세에 휩쓸리는 시대에 살고 있고, 요즘은 딥러닝과 LLM이 대세인 시대이다.
  • 이런 시대에서 딥러닝이 만능이라는 사고의 함정에 빠지지 말고, 문제를 잘 해결할 수 있는 알맞은 도구(모델)을 선택해 사용하는 태도를 지켜나갈 수 있도록 노력해야 한다.

데이터의 중요성

  • 모델은 문제 해결을 위한 절반의 준비물에 지나지 않는다. 다른 절반은 바로 데이터다.
  • 현실을 설명하기 위한 충분한 정보를 가진 데이터가 있어야만 모델이 의미 있는 결과를 낼 수 있다.
  • 예를 들어 고양이와 강아지를 구분하기 위해서는 고양이와 강아지가 찍힌 사진이 있으면 된다. 사람이 그 사진을 보고 둘을 구분할 수 있기 때문에, 이제 기계적으로 고양이와 강아지를 구분할 수 있는 모델 구조를 찾으면 되는 것이다.
  • 하지만 주가 예측을 위해 지금까지의 주가 데이터를 준비했다고 가정해보자. 데이터가 충분하지 않을 수 있다. 현실의 주가를 설명하기 위해서는 회사 전략, 세계 정세, 환율 등 영향 요인이 많기 때문이다.

머신러닝이 이루어지기 위한 조건

효과적인 머신러닝을 위해

  • (1) 데이터가 충분한 양의 필요 정보를 담고 있어야 한다.
  • (2) 모델이 데이터에 맞는 가정(구조)를 가지고 있어야 한다.

효과적인 모델 만들기에 노력이 필요한 이유

  • 현실 세계에서 효과적인 모델을 만드는 데에는 많은 노력이 필요하다.
  • 그 이유는, 첫째로 충분한 데이터와 알맞은 모델을 준비해야 하기 때문이다.
  • 둘째로, 잘 안풀렸을 때 데이터와 모델 양쪽에서 문제 원인을 찾고 교차 실험 및 검증 작업이 필요하기 때문이다.

Reference

방송통신대학교 - 자연언어처리 수업 (유찬우 교수)

Comments