데이터의 정의와 특징
데이터란 현실 세계에서 관찰하거나 측정하여 수집한 사실로 추론과 추정의 근거를 이루는 사실이다.
단순한 객체로도 가치가 있고 다른 객체와의 상호관계 속에서 더 큰 가치를 갖게 된다.
객관적 사실이며, 추론과 추정 및 예측이나 전망을 위한 근거로써 특성을 가진다.
데이터의 분류
분류 기준 | 분류 |
---|---|
1. 종류에 따른 분류 | 정량적 데이터, 정성적 데이터 |
2. 형태에 따른 분류 | 정형 데이터, 반정형 데이터, 비정형 데이터 |
3. 수치와 범주 | 수치형 데이터, 범주형 데이터 |
4. 통계적 분류 | 단변량 자료, 다변량 자료 |
1. 종류에 따른 분류
구분 | 정량적 데이터 | 정성적 데이터 |
---|---|---|
영문 | Quantitative Data | Qualitative Data |
정의 | 수치로 표현되며, 측정 가능한 데이터 | 비수치적으로 표현되며, 주관적이거나 서술적인 데이터 |
유형1 | 정형 데이터, 반정형 데이터 | 비정형 데이터 |
유형2 | 수치형 데이터 | 범주형 데이터, 문자형 데이터 |
구성 | 수치, 기호 | 문자나 언어 |
분석 | 통계 분석 용이 | 통계 분석시 어려움 |
예시 | 나이, 키, 체중, 온도, 점수 | 색깔, 성별, 감정, 제품 리뷰 |
2. 형태에 따른 분류
구분 | 정형 데이터 | 반정형 데이터 | 비정형 데이터 |
---|---|---|---|
영문 | Structured Data | Semi-Structured Data | UnStructured Data |
정의 | 정해진 형식과 구조에 맞게 구성된 데이터 |
형식과 구조가 비교적 유연하고, 스키마 정보를 데이터와 함께 제공하는 파일 형식 |
구조가 정해지지 않은 대부분의 데이터 |
연산 | 가능 | 불가능 | 불가능 |
예시 | 관계형 DB에 저장되는 데이터 | JSON, XML, RDF, HTML 등 | 동영상, 이미지, 음성, 문서 등 |
3. 수치와 범주
구분 | 수치형 데이터 | 범주형 데이터 |
---|---|---|
영문 | Numerical Data | Categorical Data |
정의 | 정수, 실수 등 숫자 값으로 표현되는 데이터 | 데이터를 특정 그룹이나 범주로 분류할 수 있는 데이터 |
특징 | 값의 크기와 간격이 의미가 있음 | 순서나 간격의 의미가 없음 |
유형 | 이산형, 연속형 | 명목형, 순서형 |
예시 | 나이, 키, 체중, 온도, 점수 등 | 색깔, 성별, 학년, 학과, 국가 등 |
비고 | 정량적 데이터와 같음 | 정성적 데이터의 일종 |
-이산형 자료 : 셀 수 있는 이산적인 값. 학생 수, 출전 횟수 등.
-연속형 자료 : 특정 구간 내 모든 연속적인 값(무한함). 신장, 체중 등.
-명목형 자료 : 이름이나 범주로 분류한 자료. 순서와 크기에 의미가 없음. 성별, 혈액형 등.
-순서형 자료 : 순서대로 나열할 수 있는데이터. 순서는 의미 있으나, 간격 의미는 없음. 학년, 만족도 등.
-비율 자료 : 명목자료, 서열자료, 구간자료의 의미를 모두 가지는 자료로 수치화된 변수에 비율의 개념을 도입한 자료.
-구간 자료 : 명목형 및 순서형 자료의 의미를 포함하면서 변수 간 관계가 산술적 의미를 가지는 자료. 시각, 연도 등. 덧뺄셈 가능.
5. 통계적 분류
구분 | 단변량 자료 | 다변량 자료 |
---|---|---|
영문 | Univariate Data | Multivariate Data |
정의 | 하나의 변수만을 포함하는 데이터 | 두 개 이상의 변수를 포함하는 데이터 |
특징 | 단일 변수 분포 분석에 사용됨 | 여러 변수 간 관계 분석에 사용됨 |
예시 | 학생들의 시험 점수, 회사의 수익 | 키와 몸무게의 관계, 날씨 데이터(온도, 습도..) |
Reference
2022 ADsP 데이터분석 준전문가 (윤종식 저)
빅데이터분석기사 필기 (나홍석 등)