머신러닝의 주제(topic)와 종류

머신러닝의 주제 설명 종류
데이터 분석 - 데이터에서 패턴, 추세, 이상치 파악
의사 결정에 활용할 수 있음
분류(classification)
회귀(regression)
군집화(clustering)
특징 추출 - 원천 데이터에서 머신러닝 모델 학습에 유용한 특징 추출, 생성 특징 추출(feature extraction)

분류 (Classification)

구분 설명
분류 - 입력 데이터가 어느 클래스에 속하는지를 예측하는 머신러닝
- 결정경계 : 클래스를 구분하는 직선 또는 곡선
- 결정함수 : 입력 데이터값과 출력 데이터값을 매핑해주는 함수
학습 목표 - 최적의 결정경계를 찾아 분류율을 최대화하거나 분류 오차를 최소화하는 것
- 분류율 : 주어진 결정경계를 이용해 분류를 수행했을 때, 전체 데이터 중 분류에 성공한 데이터의 비율
적용 예 - 숫자 인식
- 얼굴 인식
- 생체 인식 등
종류 - 베이즈 분류기
- K-최근접 이웃 분류기 (KNN)
- 결정 트리
- 랜덤 포레스트
- SVM
- 신경망 - MLP, CNN, LSTM 등
출력 - 이산적인 값, 데이터가 속하는 클래스

회귀 (Regression)

구분 설명
회귀 - 입력변수와 출력변수 사이의 매핑 관계를 분석하는 것
학습 목표 - 회귀오차를 최소화하는 회귀함수 도출
적용 예 - 시계열 예측
- 시장 예측
- 주가 예측
종류 - 선형 회귀
- 비선형 회귀
- 로지스틱 회귀
- SVM
- 신경망(MLP, RBF, CNN, LSTM)
출력 - 연속적인 실수값, 수치

군집화 (Clustering)

구분 설명
군집화 - 데이터 집합을 서로 비슷한 몇 개의 그룹(군집)으로 묶는 것
- 분류와 달리 클래스 정보(=답)가 주어지지 않음
- 즉, 데이터가 입력만으로 구성되어있음
학습 목표 - 아래의 목적을 달성하는 클러스터들을 찾는 것
- 각 클러스터 내 분산은 최소화(=클러스터 내 데이터들은 유사한 게 모이도록)
- 클러스터 간 분산은 최대화(=클러스터 간의 데이터들은 유사성이 적도록)
적용 예 - 데이터 그룹화
- 영상 분할
종류 - K-평균 군집화(K-means)
- 계층적 군집화
- 가우시안 혼합 모델
- 신경망(SOM)
출력 - 해당 데이터가 속하는 클러스터

특징 추출 (Feature extraction)

구분 설명
특징 추출 - 원천 데이터로부터 분석 및 모델 학습에 적용하기 좋은 특징을 찾아내는 것
- 혹은, 데이터 차원을 줄여 계산량과 메모리를 절약하는 것
학습 목표 (1) 분석에 유의미한 변수를 추출
(2) 데이터 차원을 줄이면서 정보 손실량을 최소화
적용 예 - 영상 데이터의 차원 축소
- 데이터 시각화
종류 - 주성분분석(PCA)
- 선형판별분석(LDA)
- MDS
- t-SNE
입력 - 입력-출력 쌍이 있는 데이터
- 입력만으로 구성된 데이터
- 둘 모두 가능
출력 - 특징벡터
- 특정 매핑 함수

그 외 머신러닝의 고급 주제

주제 설명
앙상블 학습 - 여러 개의 학습 시스템이나 모델을 결합해 일반화 성능을 향상시키는 것
능동 학습 - 학습 과정에서 데이터를 선별적으로 선택하여 수행하는 방법
메타 학습과 자동 머신 러닝 - 학습 시스템의 복잡도 등의 하이퍼파라미터까지 학습을 통해 최적화하는 방법
지속/증분 학습 - 기존 학습된 내용의 손실 없이 새로운 내용을 추가로 학습하는 방법

Reference

머신러닝 (이관용, 박혜영 공저)