데이터 분석 - 데이터 분석 용어

알아두자 데이터 분석 용어

1 minute read

데이터 분석 용어

용어 설명 동의어
종속변수 다른 변수의 영향을 받는 변수. 보통 구하려는 값. 함수에서의y. 반응변수
독립변수 영향을 주는 변수. 함수에서의 x. 설명변수
선형성 변수 간의 관계를 직선으로 나타낼 수 있는 특성.
선형성이 있다는 것은 두 변수 간 상관이 있다는 것이다.
 
다중공선성 독립변수 간 높은 상관관계가 존재하는 현상
독립변수의 독립성을 저해해, 분석 결과의 신뢰도를 낮춘다.
따라서 문제가 있는 변수를 제거하거나 주성분분석 등으로 합친다.
 
등분산성 하나의 변수에 관계 없이 다른 변수의 흩어진 정도가 같은 것.  
상관계수 두 변수 간의 관계의 크기와 방향을 나타내는 지표  
피어슨 상관계수 두 변수 간 선형 상관 관계를 -1 ~ 1 사이의 값으로 측정하는 상관계수
1은 완벽한 양의 선형 상관관계, -1은 완벽한 음의 선형 상관관계.
0은 두 변수 간 상관 관계가 없는 것을 뜻한다.
두 변수 간 선형 관계만을 측정한다.
두 변수의 공분산을 각각의 표준편차의 곱으로 나눈 값.
 
스피어만 상관계수 두 변수 간 단조 관계를 0 ~ 1 사이의 값으로 측정하는 상관계수
데이터를 순위로 변환한 후 피어슨 상관계수를 계산한 것과 같음.
1은 완벽한 단조 증가 관계, -1은 완벽한 단조 감소 관계를 뜻하며
0은 단조 관계가 없는 것을 뜻한다.
데이터가 비선형 관계일 때도 사용할 수 있으며, 이상치의 영향을 덜 받는다.
 
단조 관계 두 변수 간의 관계가 일정한 방향으로 움직이는 것
한 변수가 증가할 때 다른 변수도 일정하게 증가하거나 감소하는 관계
선형일 수도 있고, 비선형일 수도 있다.
중요한 것은 변수 간의 방향성이 일정하다는 것
 
연관 관계 두 변수 간의 관계나 관련성을 나타내는 일반적인 용어
변수들이 어떤 방식으로든 서로 영향을 주고받는 경우
선형, 비선형, 상관관계가 모두 연관 관계에 포함된다.
 
상관 관계 두 변수 간의 관계의 강도와 방향을 나타내는 통계적 측정.
변수들이 함께 어떻게 변하는지를 설명하는 것으로
피어슨, 스피어만 상관계수 등으로 측정한다.
 
선형 상관관계 두 변수 간의 관계를 직선으로 나타낼 수 있는 관계.
한 변수가 증가할 때, 다른 변수는 일정한 비율로 증가하거나 감소함.
예) 키와 몸무게, 공부 시간과 성적 간의 관계
 
비선형 상관관계 두 변수 간의 관계가 직선이 아닌 곡선의 형태 등으로 나타나는 관계.
한 변수가 증가할 때 다른 변수의 증가/감소 비율이 일정하지 않음.
예) 연령과 수입, 경제적 지위와 행복도
 
결측치    
이상치    
사분위수    
정규화    
     
     

Reference

2022 ADsP 데이터분석 준전문가 (윤종식 저)
빅데이터분석기사 필기 (나홍석 등)

Comments