데이터 분석 용어

용어 설명 동의어
종속변수 다른 변수의 영향을 받는 변수. 보통 구하려는 값. 함수에서의y. 반응변수
독립변수 영향을 주는 변수. 함수에서의 x. 설명변수
선형성 변수 간의 관계를 직선으로 나타낼 수 있는 특성.
선형성이 있다는 것은 두 변수 간 상관이 있다는 것이다.
 
다중공선성 독립변수 간 높은 상관관계가 존재하는 현상
독립변수의 독립성을 저해해, 분석 결과의 신뢰도를 낮춘다.
따라서 문제가 있는 변수를 제거하거나 주성분분석 등으로 합친다.
 
등분산성 하나의 변수에 관계 없이 다른 변수의 흩어진 정도가 같은 것.  
상관계수 두 변수 간의 관계의 크기와 방향을 나타내는 지표  
피어슨 상관계수 두 변수 간 선형 상관 관계를 -1 ~ 1 사이의 값으로 측정하는 상관계수
1은 완벽한 양의 선형 상관관계, -1은 완벽한 음의 선형 상관관계.
0은 두 변수 간 상관 관계가 없는 것을 뜻한다.
두 변수 간 선형 관계만을 측정한다.
두 변수의 공분산을 각각의 표준편차의 곱으로 나눈 값.
 
스피어만 상관계수 두 변수 간 단조 관계를 0 ~ 1 사이의 값으로 측정하는 상관계수
데이터를 순위로 변환한 후 피어슨 상관계수를 계산한 것과 같음.
1은 완벽한 단조 증가 관계, -1은 완벽한 단조 감소 관계를 뜻하며
0은 단조 관계가 없는 것을 뜻한다.
데이터가 비선형 관계일 때도 사용할 수 있으며, 이상치의 영향을 덜 받는다.
 
단조 관계 두 변수 간의 관계가 일정한 방향으로 움직이는 것
한 변수가 증가할 때 다른 변수도 일정하게 증가하거나 감소하는 관계
선형일 수도 있고, 비선형일 수도 있다.
중요한 것은 변수 간의 방향성이 일정하다는 것
 
연관 관계 두 변수 간의 관계나 관련성을 나타내는 일반적인 용어
변수들이 어떤 방식으로든 서로 영향을 주고받는 경우
선형, 비선형, 상관관계가 모두 연관 관계에 포함된다.
 
상관 관계 두 변수 간의 관계의 강도와 방향을 나타내는 통계적 측정.
변수들이 함께 어떻게 변하는지를 설명하는 것으로
피어슨, 스피어만 상관계수 등으로 측정한다.
 
선형 상관관계 두 변수 간의 관계를 직선으로 나타낼 수 있는 관계.
한 변수가 증가할 때, 다른 변수는 일정한 비율로 증가하거나 감소함.
예) 키와 몸무게, 공부 시간과 성적 간의 관계
 
비선형 상관관계 두 변수 간의 관계가 직선이 아닌 곡선의 형태 등으로 나타나는 관계.
한 변수가 증가할 때 다른 변수의 증가/감소 비율이 일정하지 않음.
예) 연령과 수입, 경제적 지위와 행복도
 
결측치    
이상치    
사분위수    
정규화    
     
     

Reference

2022 ADsP 데이터분석 준전문가 (윤종식 저)
빅데이터분석기사 필기 (나홍석 등)