데이터의 정의와 특징

데이터란 현실 세계에서 관찰하거나 측정하여 수집한 사실로 추론과 추정의 근거를 이루는 사실이다.

단순한 객체로도 가치가 있고 다른 객체와의 상호관계 속에서 더 큰 가치를 갖게 된다.
객관적 사실이며, 추론과 추정 및 예측이나 전망을 위한 근거로써 특성을 가진다.

데이터의 분류

분류 기준 분류
1. 종류에 따른 분류 정량적 데이터, 정성적 데이터
2. 형태에 따른 분류 정형 데이터, 반정형 데이터, 비정형 데이터
3. 수치와 범주 수치형 데이터, 범주형 데이터
4. 통계적 분류 단변량 자료, 다변량 자료

1. 종류에 따른 분류

구분 정량적 데이터 정성적 데이터
영문 Quantitative Data Qualitative Data
정의 수치로 표현되며, 측정 가능한 데이터 비수치적으로 표현되며, 주관적이거나 서술적인 데이터
유형1 정형 데이터, 반정형 데이터 비정형 데이터
유형2 수치형 데이터 범주형 데이터, 문자형 데이터
구성 수치, 기호 문자나 언어
분석 통계 분석 용이 통계 분석시 어려움
예시 나이, 키, 체중, 온도, 점수 색깔, 성별, 감정, 제품 리뷰

2. 형태에 따른 분류

구분 정형 데이터 반정형 데이터 비정형 데이터
영문 Structured Data Semi-Structured Data UnStructured Data
정의 정해진 형식과 구조에 맞게
구성된 데이터
형식과 구조가 비교적 유연하고,
스키마 정보를 데이터와 함께 제공하는 파일 형식
구조가 정해지지 않은
대부분의 데이터
연산 가능 불가능 불가능
예시 관계형 DB에 저장되는 데이터 JSON, XML, RDF, HTML 등 동영상, 이미지, 음성, 문서 등

3. 수치와 범주

구분 수치형 데이터 범주형 데이터
영문 Numerical Data Categorical Data
정의 정수, 실수 등 숫자 값으로 표현되는 데이터 데이터를 특정 그룹이나 범주로 분류할 수 있는 데이터
특징 값의 크기와 간격이 의미가 있음 순서나 간격의 의미가 없음
유형 이산형, 연속형 명목형, 순서형
예시 나이, 키, 체중, 온도, 점수 등 색깔, 성별, 학년, 학과, 국가 등
비고 정량적 데이터와 같음 정성적 데이터의 일종

-이산형 자료 : 셀 수 있는 이산적인 값. 학생 수, 출전 횟수 등.
-연속형 자료 : 특정 구간 내 모든 연속적인 값(무한함). 신장, 체중 등.
-명목형 자료 : 이름이나 범주로 분류한 자료. 순서와 크기에 의미가 없음. 성별, 혈액형 등.
-순서형 자료 : 순서대로 나열할 수 있는데이터. 순서는 의미 있으나, 간격 의미는 없음. 학년, 만족도 등.
-비율 자료 : 명목자료, 서열자료, 구간자료의 의미를 모두 가지는 자료로 수치화된 변수에 비율의 개념을 도입한 자료.
-구간 자료 : 명목형 및 순서형 자료의 의미를 포함하면서 변수 간 관계가 산술적 의미를 가지는 자료. 시각, 연도 등. 덧뺄셈 가능.

5. 통계적 분류

구분 단변량 자료 다변량 자료
영문 Univariate Data Multivariate Data
정의 하나의 변수만을 포함하는 데이터 두 개 이상의 변수를 포함하는 데이터
특징 단일 변수 분포 분석에 사용됨 여러 변수 간 관계 분석에 사용됨
예시 학생들의 시험 점수, 회사의 수익 키와 몸무게의 관계, 날씨 데이터(온도, 습도..)

Reference

2022 ADsP 데이터분석 준전문가 (윤종식 저)
빅데이터분석기사 필기 (나홍석 등)