정의
데이터 레이크 (Data Lake ; DL)
정의
- 대용량의 원시(raw) 형태의 데이터를 저장하는 저장소
- 저장되는 데이터의 형태는 정형, 반정형, 비정형이 혼합되어있다.
- 원시(raw) : 데이터가 수집된 그대로, 가공이나 정제가 가해지지 않은 상태
특징
- 사용자는 필요할 때 데이터 레이크의 데이터를 가져와 가공해 활용해야 한다.
- 즉, 스키마는 저장 시점이 아닌 조회 시점(schema-on-read)에 적용된다.
- 정제/가공되어있지 않기 때문에 바로 분석이 어렵다.
- 어떤 분석이 필요한지 모를 때도 전부 저장이 가능하다.
- 구조화되지 않은 데이터(로그, 이미지, JSON 등)도 저장 가능
사용 사례
- 머신러닝, 빅데이터 분석, 데이터 사이언스 등
데이터 웨어하우스 (Data Warehouse ; DW)
정의
- 데이터를 정제(ETL) 하여 분석 및 리포트용으로 저장하는 시스템
- 저장되는 데이터의 형태는 정형 데이터이거나 테이블로 사전 모델링된 데이터
- 정제(ETL) : 데이터를 추출 → 변환 → 적재 하는 과정. 다양한 소스의 데이터를 분석이 가능하도록 가공해주는 작업
특징
- 정제한 뒤 저장하면서 데이터의 스키마가 정의된다.
- 즉 스키마는 저장 시점(schema-on-write)에 정의됨
- 데이터는 정제되고 구조화되어 있음
- 내/외부에 여러 소스(데이터 원천)이 있음
- 빠른 SQL 기반 분석 및 리포팅에 최적화됨
사용 사례
- BI 도구와 연계한 대시보드, 경영 보고, KPI 분석 등
데이터 마트 (Data Mart ; DM)
정의
- 특정 부서나 특정 목적에 최적화된, 데이터 웨어하우스의 하위 집합
- 저장되는 데이터의 형태는 DW와 동일하게 정형이거나 테이블로 사전 모델링된 데이터
특징
- 한정된(특정한) 주제 영역의 데이터만 포함한다.
- 내/외부에 소수의 소스(데이터 원천)이 있음
- 빠른 엑세스와 맞춤형 분석에 적합하다.
- 부서별 데이터 분석 및 자율성을 높인다.
사용 사례
- 마케팅 캠페인 분석, 제품별 매출 분석 등
비교
데이터 웨어하우스와 데이터 마트
- DW 와 DM 의 가장 핵심적인 차이점은 “범위(Scope)”
항목 | 데이터 웨어하우스 | 데이터 마트 |
---|---|---|
범위 | - 함께 통합된 중앙 집중식 - 여러 주제(관심사/부서)에 걸침 |
- 여러 군데 분산된 - 단일 주제(관심사/부서)에 초점 - 일반적으로 DW의 정보를 필터링, 요약 |
사용자 | - 여러 사용자와 프로젝트 | - 단일 프로젝트 - 단일 부서/커뮤니티 |
데이터 소스 | - 내/외부에 여러 소스가 존재 | - 내/외부에 소수의 작은 소스 - 혹은 DW에 이미 수집된 데이터의 일부 |
크기 | - 대형 - 수백 GB ~ PB |
- 소형 - 최고 수십 GB |
설계 | - 하향식 | - 상향식 |
데이터 세부 | - 완전한, 상세 데이터 | - 요약된 데이터 |
데이터 형태 | - 정형 데이터 | - 정형 데이터 |
데이터 웨어하우스와 데이터 레이크
- DW와 DL의 가장 핵심적인 차이점은 데이터 처리 방식(Schema 적용 시점)
- 또한 담는 데이터의 형태도 큰 차이점
항목 | 데이터 웨어하우스 | 데이터 레이크 |
---|---|---|
데이터 | - 정형/테이블로 모델링된 데이터 | - 정형, 반정형, 비정형 등 모든 데이터 |
스키마 시점 | - 저장(쓰기=write) 시점에 정의됨 | - 분석(읽기=read) 시점에 정의됨 |
가격/성능 | - 사용 측면의 성능을 중시함(성능) | - 볼륨 및 비용 측면을 중시함(효율) |
사용자 | - 비즈니스 분석가 - 데이터 사이언티스트 - 데이터 개발자 |
- 비즈니스 분석가 - 데이터 사이언티스트 - 데이터 개발자 - 데이터 엔지니어 / 아키텍트 |
데이터 소스 | - 모든 무제한의 데이터 소스 | - 모든 무제한의 데이터 소스 |
전처리 | - DW에 저장 전 전처리 필요 | - 전처리 없이 모든 데이터가 저장됨 |
데이터 품질 | - 전처리를 하므로 신뢰성 높음 | |
분석 | - 배치 보고, BI 및 시각화 | - 머신러닝, 탐색 분석, 데이터 검색.. |
언제 무얼 사용해야 할까?
요약
- 대부분 대규모 조작은 DL, DW, DM 을 조합해서 사용합
- 일반적으로는 DL 에 수집된 후, DW 또는 DM 에 로드됨
- 다만, 사용법이 정해진 게 아님. 어떤 기술을 사용할지는 다양한 요인에 의해 결정됨
유연성
- 일반적으로 데이터 레이크는 더 낮은 비용으로 더 높은 유연성 제공
- 다양한 팀이 각자 원하는 분석 도구를 사용해 동일한 데이터에 접근 가능
- 데이터 구조나 스키마 등을 정의할 필요가 없으므로 시간 절약 가능
데이터 유형
- 고객 데이터, 비즈니스 프로세스 데이터 등 관계형 데이터 저장시 DW가 좋음
- 데이터 양이 많은 경우, 특정 관심사에 맞는 데이터 마트를 만들 수도 있음
Reference
https://aws.amazon.com/ko/compare/the-difference-between-a-data-warehouse-data-lake-and-data-mart/
Comments