데이터 분석 용어
용어 | 설명 | 동의어 |
---|---|---|
종속변수 | 다른 변수의 영향을 받는 변수. 보통 구하려는 값. 함수에서의y. | 반응변수 |
독립변수 | 영향을 주는 변수. 함수에서의 x. | 설명변수 |
선형성 | 변수 간의 관계를 직선으로 나타낼 수 있는 특성. 선형성이 있다는 것은 두 변수 간 상관이 있다는 것이다. |
|
다중공선성 | 독립변수 간 높은 상관관계가 존재하는 현상 독립변수의 독립성을 저해해, 분석 결과의 신뢰도를 낮춘다. 따라서 문제가 있는 변수를 제거하거나 주성분분석 등으로 합친다. |
|
등분산성 | 하나의 변수에 관계 없이 다른 변수의 흩어진 정도가 같은 것. | |
상관계수 | 두 변수 간의 관계의 크기와 방향을 나타내는 지표 | |
피어슨 상관계수 | 두 변수 간 선형 상관 관계를 -1 ~ 1 사이의 값으로 측정하는 상관계수 1은 완벽한 양의 선형 상관관계, -1은 완벽한 음의 선형 상관관계. 0은 두 변수 간 상관 관계가 없는 것을 뜻한다. 두 변수 간 선형 관계만을 측정한다. 두 변수의 공분산을 각각의 표준편차의 곱으로 나눈 값. |
|
스피어만 상관계수 | 두 변수 간 단조 관계를 0 ~ 1 사이의 값으로 측정하는 상관계수 데이터를 순위로 변환한 후 피어슨 상관계수를 계산한 것과 같음. 1은 완벽한 단조 증가 관계, -1은 완벽한 단조 감소 관계를 뜻하며 0은 단조 관계가 없는 것을 뜻한다. 데이터가 비선형 관계일 때도 사용할 수 있으며, 이상치의 영향을 덜 받는다. |
|
단조 관계 | 두 변수 간의 관계가 일정한 방향으로 움직이는 것 한 변수가 증가할 때 다른 변수도 일정하게 증가하거나 감소하는 관계 선형일 수도 있고, 비선형일 수도 있다. 중요한 것은 변수 간의 방향성이 일정하다는 것 |
|
연관 관계 | 두 변수 간의 관계나 관련성을 나타내는 일반적인 용어 변수들이 어떤 방식으로든 서로 영향을 주고받는 경우 선형, 비선형, 상관관계가 모두 연관 관계에 포함된다. |
|
상관 관계 | 두 변수 간의 관계의 강도와 방향을 나타내는 통계적 측정. 변수들이 함께 어떻게 변하는지를 설명하는 것으로 피어슨, 스피어만 상관계수 등으로 측정한다. |
|
선형 상관관계 | 두 변수 간의 관계를 직선으로 나타낼 수 있는 관계. 한 변수가 증가할 때, 다른 변수는 일정한 비율로 증가하거나 감소함. 예) 키와 몸무게, 공부 시간과 성적 간의 관계 |
|
비선형 상관관계 | 두 변수 간의 관계가 직선이 아닌 곡선의 형태 등으로 나타나는 관계. 한 변수가 증가할 때 다른 변수의 증가/감소 비율이 일정하지 않음. 예) 연령과 수입, 경제적 지위와 행복도 |
|
결측치 | ||
이상치 | ||
사분위수 | ||
정규화 | ||
Reference
2022 ADsP 데이터분석 준전문가 (윤종식 저)
빅데이터분석기사 필기 (나홍석 등)