분석

데이터 분석

데이터 분석은 데이터의 특징이나 패턴을 파악하여 데이터에서 유의미한 인사이트를 얻고 이를 문제 해결, 의사 결정 지원, 예측 등의 목적을 위해 활용된다.

인사이트를 얻기 위해서는 데이터를 수집, 정제하고 데이터의 특징과 패턴에 대해 탐색한 다음, 분석 및 모델링에 적합한 형태류 데이터를 변환한다.

모델링

모델링(Modeling)은 데이터를 기반으로 현실 세계의 현상이나 시스템을 수학적, 통계적, 또는 컴퓨터 기반 모델로 표현하는 추상화 과정이다.

머신러닝 모델은 이러한 모델링의 한 예로, 데이터 분석에서 파악한 특징과 패턴을 컴퓨터가 학습하여 현재를 분석하거나, 미래를 예측하거나 혹은 데이터의 패턴을 파악하는 데 사용된다.

분석의 목적에 따라 아래와 같이 나눌 수 있다.

분석 모형 정의
예측 분석 모형 - 현재까지의 데이터와 상황에 따른 가설을 기반해 미래를 미리 분류하고 예측
- 적조 예측, 날씨 예측, 주가 예측, 범죄 예측, 쇼핑아이템 추천 등
현황 진단 모형 - 과거 데이터를 통해 현재 상황을 객관적으로 진단. 즉 현재를 이해하는 것.
- 과거에 어떤 일이 일어났고, 현재는 어떠한 상태인가?
최적화 분석 모형 - 제한된 자원, 환경 내에서 최대의 효용성을 내기 위한 최적화에 중점
- 어떻게 하면 원하는 결과가 일어날 수 있을까?

데이터 분석을 위한 현황 진단

구분 데이터 분석 종류
분석 목적 예측, 현황진단, 최적화
변수의 개수 단변량, 다변량
변수의 종류 수치형, 범주형(이진=이항), 범주형(다범주), 정성적변수
변수의 상관성 선형성, 비선형성, 무상관성
학습방법 지도학습, 비지도학습, 준지도학습

데이터 분석의 종류

종류 설명
탐색적 데이터 분석 - 수집 데이터를 다양한 방법으로 자료를 관찰하고 이해하는 과정
- 데이터의 패턴, 결측치, 이상치, 분포 검토 진행
- 주요 방법 : 산점도, 히스토그램, 상관 행렬, 주성분 분석 등
통계 분석 - 기술 통계 : 주관이 섞인 과정을 배제한 통계. 중위수, 평균, 최빈값 등
- 추론 통계 : 샘플을 통해 모집단을 추정하는 것. 모수 추정, 가설 검증, 예측
상관 분석 - 두 개 이상의 변수 간 관계의 강도화 방향을 파악하는 측정
- 흔히 EDA의 일환으로 사용되나, 그 자체로도 주요한 독립적인 분석기법
- 상관계수로 측정되며, 대표적으로 피어슨 상관계수, 스피어만 상관계수
- 두 변수간 관계성(단순상관성), 여러 변수간 관계성(다중상관성)
- 주요 방법 : 피어슨, 스피어만, 크래머V, 파이계수, 켄달
연관 분석 - 사건 A와 B가 각각 그리고 함께 일어나는 확률로 관련성을 파악
- 흔히 EDA의 일환으로 사용되나, 그 자체로도 주요한 독립적인 분석기법
- 분석 결과 이해가 쉽고, 현실에 적용하기 쉽다.
- 항목(품목)이 많아질 수록 계산량이 많아지며, 해석에도 시간이 소요됨
- 측도 : 지지도, 신뢰도, 향상도를 기반으로 한다.
- 주요 방법 : Apriori (대세), FP-Growth (속도빠름)
변수 축약 - 변수들 간 상관관계를 이용해 서로 결합시켜 변수의 수를 줄임
- 흔히 EDA의 일환으로 사용된다.
- 주요 방법 : 주성분 분석, 요인 분석, 정준상관 분석
회귀 분석 - 특정 변수가 다른 변수에 어떤 영향을 미치는지 설명, 예측하는 기법
- 즉 변수 간 선형적인 관계에 대해 분석하는 기법
- 회귀선 : 독립변수가 주어질 때의 종속변수의 기대값 = 기울기
- 최소제곱법 : 잔차 제곱의 합이 최소가 되는 직선 기울기를 찾는 방법
- 장점 : 계수(기울기)에 대한 명료한 해석과 쉬운 검증
- 단점 : 데이터가 선형적으로 구성되어있어야 검증 가능
- 두 변수 간 (단순 회귀 분석), 여러 변수 간 (다중 회귀 분석)
분류 분석 - 데이터가 어떤 그룹에 속하는지 예측하는 분석 방법
- 주요 방법 : Decision Tree, 랜덤포레스트, 로지스틱 회귀
군집 분석 - 개체들 간 유사성이 높은 대상끼리 그룹으로 묶는 분석법
- 변수에 대한 정의가 필요하지 않아, 적용성이 높음
- 사전에 주어진 목표가 없음에 따라 결과 해석이 어려울 수 있음
- 주요 방법 : 계층적 군집 / k-means / DBSCAN(밀도 기반)
시계열 분석 - 시간의 흐름에 따라 관찰된 값을 분석하는 벙밥
- 주요 방법 : 이동평균법, 지수평활법, 분해법, AR, ARMA, ARIMA
베이즈 기법 - 베이즈 추론을 기반으로, 대상의 사전 확률로 사후 확률을 추측하는 방법
- 많은 현대적 기계학습법이 베이즈 원리에 따라 만들어졌다.
- 주요 방법 : 가우시안 나이브, 다항분포 나이브 베이즈, 베르누이 나이브 베이즈(이진)
서포트벡터 머신 - 공간에 데이터를 위치시키고, 이를 가장 잘 분류할 수 있는 평면을 찾음
- 즉 두 데이터 집단 간 여백(마진)을 최대화 하는 지점을 찾는 것
- 분류, 회귀 문제에 동시에 활용이 가능하며
- 딥러닝 기법에 비해 적은 데이터로 학습이 가능
- 이진분류 데이터를 대상으로만 가능함
- 데이터 많을시 학습 시간이 오래 소요됨
앙상블 분석 - 여러 개의 모델을 만든 후, 그 모델들을 결합해 하나의 모델을 만드는 기법
- 보팅, 부스팅, 배깅, 스태킹 기법 등을 사용한다.
- 예시 : 랜덤포레스트
딥러닝 분석 - 여러 층으로 구성되었으며, 각 층은 여러 노드(뉴런)으로 구성됨
- Input 과 Output 사이에 층을 위치시켜, 그 사이 노드들에 가중치를 학습
- 비선형적 예측이 가능하며, 다양한 데이터 유형에 대응 가능
- 데이터가 클수록 학습 비용이 큼
- 모델 설명력이 떨어짐
비정형 데이터 분석 - 빅데이터의 대부분인 비정형 데이터의 패턴을 파악하는 분석
- 데이터마이닝, 텍스트마이닝, 자연어 처리, 웹 마이닝, 오피니언 마이닝 ..

분석 방법은 구분하는 기준에 따라 한 곳에도 속할 수 있고, 여러 곳에도 속할 수 있다.
절대적인 하나의 기준으로 모든 분석 방법을 정확하고 고정적으로 나누기란 힘들다.
분류분석과 군집분석은 다르다. 분류분석은 사전에 카테고리가 정해져있고, 군집분석은 정해져있지 않다.

범주형 자료 분석

독립변수 종속변수 분석방법
범주형 범주형 빈도분석, 카이제곱, 로그선형
연속형 범주형 로지스틱 회귀
범주형 연속형 T2, 분산분석
연속형 연속형 상관분석, 회귀분석

데이터 분석 모델 종류

구분 상세 종류
분류
classification
Decision Tree(의사결정 나무)
Logistic Regression(로지스틱 회귀)
나이브 베이즈
랜덤 포레스트
SVN
KNN
회귀
regression
선형회귀
다중회귀
릿지회귀
라쏘회귀
엘라스틱 넷 회귀
+분류모델로 회귀 문제 해결 가능
군집
clustering
k-means
계층적 군집화
DBSCAN
평균이동
가우시안 혼합모델
스펙트럼 군집화
그 외 MF

Reference

2022 ADsP 데이터분석 준전문가 (윤종식 저)
빅데이터분석기사 필기 (나홍석 등)