머신러닝의 주제(topic)와 종류
머신러닝의 주제 | 설명 | 종류 |
---|---|---|
데이터 분석 | - 데이터에서 패턴, 추세, 이상치 파악 의사 결정에 활용할 수 있음 |
분류(classification) 회귀(regression) 군집화(clustering) |
특징 추출 | - 원천 데이터에서 머신러닝 모델 학습에 유용한 특징 추출, 생성 | 특징 추출(feature extraction) |
분류 (Classification)
구분 | 설명 |
---|---|
분류 | - 입력 데이터가 어느 클래스에 속하는지를 예측하는 머신러닝 - 결정경계 : 클래스를 구분하는 직선 또는 곡선 - 결정함수 : 입력 데이터값과 출력 데이터값을 매핑해주는 함수 |
학습 목표 | - 최적의 결정경계를 찾아 분류율을 최대화하거나 분류 오차를 최소화하는 것 - 분류율 : 주어진 결정경계를 이용해 분류를 수행했을 때, 전체 데이터 중 분류에 성공한 데이터의 비율 |
적용 예 | - 숫자 인식 - 얼굴 인식 - 생체 인식 등 |
종류 | - 베이즈 분류기 - K-최근접 이웃 분류기 (KNN) - 결정 트리 - 랜덤 포레스트 - SVM - 신경망 - MLP, CNN, LSTM 등 |
출력 | - 이산적인 값, 데이터가 속하는 클래스 |
회귀 (Regression)
구분 | 설명 |
---|---|
회귀 | - 입력변수와 출력변수 사이의 매핑 관계를 분석하는 것 |
학습 목표 | - 회귀오차를 최소화하는 회귀함수 도출 |
적용 예 | - 시계열 예측 - 시장 예측 - 주가 예측 |
종류 | - 선형 회귀 - 비선형 회귀 - 로지스틱 회귀 - SVM - 신경망(MLP, RBF, CNN, LSTM) |
출력 | - 연속적인 실수값, 수치 |
군집화 (Clustering)
구분 | 설명 |
---|---|
군집화 | - 데이터 집합을 서로 비슷한 몇 개의 그룹(군집)으로 묶는 것 - 분류와 달리 클래스 정보(=답)가 주어지지 않음 - 즉, 데이터가 입력만으로 구성되어있음 |
학습 목표 | - 아래의 목적을 달성하는 클러스터들을 찾는 것 - 각 클러스터 내 분산은 최소화(=클러스터 내 데이터들은 유사한 게 모이도록) - 클러스터 간 분산은 최대화(=클러스터 간의 데이터들은 유사성이 적도록) |
적용 예 | - 데이터 그룹화 - 영상 분할 |
종류 | - K-평균 군집화(K-means) - 계층적 군집화 - 가우시안 혼합 모델 - 신경망(SOM) |
출력 | - 해당 데이터가 속하는 클러스터 |
특징 추출 (Feature extraction)
구분 | 설명 |
---|---|
특징 추출 | - 원천 데이터로부터 분석 및 모델 학습에 적용하기 좋은 특징을 찾아내는 것 - 혹은, 데이터 차원을 줄여 계산량과 메모리를 절약하는 것 |
학습 목표 | (1) 분석에 유의미한 변수를 추출 (2) 데이터 차원을 줄이면서 정보 손실량을 최소화 |
적용 예 | - 영상 데이터의 차원 축소 - 데이터 시각화 |
종류 | - 주성분분석(PCA) - 선형판별분석(LDA) - MDS - t-SNE |
입력 | - 입력-출력 쌍이 있는 데이터 - 입력만으로 구성된 데이터 - 둘 모두 가능 |
출력 | - 특징벡터 - 특정 매핑 함수 |
그 외 머신러닝의 고급 주제
주제 | 설명 |
---|---|
앙상블 학습 | - 여러 개의 학습 시스템이나 모델을 결합해 일반화 성능을 향상시키는 것 |
능동 학습 | - 학습 과정에서 데이터를 선별적으로 선택하여 수행하는 방법 |
메타 학습과 자동 머신 러닝 | - 학습 시스템의 복잡도 등의 하이퍼파라미터까지 학습을 통해 최적화하는 방법 |
지속/증분 학습 | - 기존 학습된 내용의 손실 없이 새로운 내용을 추가로 학습하는 방법 |