정의

데이터 레이크 (Data Lake ; DL)

정의

  • 대용량의 원시(raw) 형태의 데이터를 저장하는 저장소
  • 저장되는 데이터의 형태는 정형, 반정형, 비정형이 혼합되어있다.
  • 원시(raw) : 데이터가 수집된 그대로, 가공이나 정제가 가해지지 않은 상태

특징

  • 사용자는 필요할 때 데이터 레이크의 데이터를 가져와 가공해 활용해야 한다.
  • 즉, 스키마는 저장 시점이 아닌 조회 시점(schema-on-read)에 적용된다.
  • 정제/가공되어있지 않기 때문에 바로 분석이 어렵다.
  • 어떤 분석이 필요한지 모를 때도 전부 저장이 가능하다.
  • 구조화되지 않은 데이터(로그, 이미지, JSON 등)도 저장 가능

사용 사례

  • 머신러닝, 빅데이터 분석, 데이터 사이언스 등

데이터 웨어하우스 (Data Warehouse ; DW)

정의

  • 데이터를 정제(ETL) 하여 분석 및 리포트용으로 저장하는 시스템
  • 저장되는 데이터의 형태는 정형 데이터이거나 테이블로 사전 모델링된 데이터
  • 정제(ETL) : 데이터를 추출 → 변환 → 적재 하는 과정. 다양한 소스의 데이터를 분석이 가능하도록 가공해주는 작업

특징

  • 정제한 뒤 저장하면서 데이터의 스키마가 정의된다.
  • 즉 스키마는 저장 시점(schema-on-write)에 정의됨
  • 데이터는 정제되고 구조화되어 있음
  • 내/외부에 여러 소스(데이터 원천)이 있음
  • 빠른 SQL 기반 분석 및 리포팅에 최적화됨

사용 사례

  • BI 도구와 연계한 대시보드, 경영 보고, KPI 분석 등

데이터 마트 (Data Mart ; DM)

정의

  • 특정 부서나 특정 목적에 최적화된, 데이터 웨어하우스의 하위 집합
  • 저장되는 데이터의 형태는 DW와 동일하게 정형이거나 테이블로 사전 모델링된 데이터

특징

  • 한정된(특정한) 주제 영역의 데이터만 포함한다.
  • 내/외부에 소수의 소스(데이터 원천)이 있음
  • 빠른 엑세스와 맞춤형 분석에 적합하다.
  • 부서별 데이터 분석 및 자율성을 높인다.

사용 사례

  • 마케팅 캠페인 분석, 제품별 매출 분석 등

비교

데이터 웨어하우스와 데이터 마트

  • DW 와 DM 의 가장 핵심적인 차이점은 “범위(Scope)”
항목 데이터 웨어하우스 데이터 마트
범위 - 함께 통합된 중앙 집중식
- 여러 주제(관심사/부서)에 걸침
- 여러 군데 분산된
- 단일 주제(관심사/부서)에 초점
- 일반적으로 DW의 정보를 필터링, 요약
사용자 - 여러 사용자와 프로젝트 - 단일 프로젝트
- 단일 부서/커뮤니티
데이터 소스 - 내/외부에 여러 소스가 존재 - 내/외부에 소수의 작은 소스
- 혹은 DW에 이미 수집된 데이터의 일부
크기 - 대형
- 수백 GB ~ PB
- 소형
- 최고 수십 GB
설계 - 하향식 - 상향식
데이터 세부 - 완전한, 상세 데이터 - 요약된 데이터
데이터 형태 - 정형 데이터 - 정형 데이터

데이터 웨어하우스와 데이터 레이크

  • DW와 DL의 가장 핵심적인 차이점은 데이터 처리 방식(Schema 적용 시점)
  • 또한 담는 데이터의 형태도 큰 차이점
항목 데이터 웨어하우스 데이터 레이크
데이터 - 정형/테이블로 모델링된 데이터 - 정형, 반정형, 비정형 등 모든 데이터
스키마 시점 - 저장(쓰기=write) 시점에 정의됨 - 분석(읽기=read) 시점에 정의됨
가격/성능 - 사용 측면의 성능을 중시함(성능) - 볼륨 및 비용 측면을 중시함(효율)
사용자 - 비즈니스 분석가
- 데이터 사이언티스트
- 데이터 개발자
- 비즈니스 분석가
- 데이터 사이언티스트
- 데이터 개발자
- 데이터 엔지니어 / 아키텍트
데이터 소스 - 모든 무제한의 데이터 소스 - 모든 무제한의 데이터 소스
전처리 - DW에 저장 전 전처리 필요 - 전처리 없이 모든 데이터가 저장됨
데이터 품질 - 전처리를 하므로 신뢰성 높음  
분석 - 배치 보고, BI 및 시각화 - 머신러닝, 탐색 분석, 데이터 검색..

언제 무얼 사용해야 할까?

요약

  • 대부분 대규모 조작은 DL, DW, DM 을 조합해서 사용합
  • 일반적으로는 DL 에 수집된 후, DW 또는 DM 에 로드됨
  • 다만, 사용법이 정해진 게 아님. 어떤 기술을 사용할지는 다양한 요인에 의해 결정됨

유연성

  • 일반적으로 데이터 레이크는 더 낮은 비용으로 더 높은 유연성 제공
  • 다양한 팀이 각자 원하는 분석 도구를 사용해 동일한 데이터에 접근 가능
  • 데이터 구조나 스키마 등을 정의할 필요가 없으므로 시간 절약 가능

데이터 유형

  • 고객 데이터, 비즈니스 프로세스 데이터 등 관계형 데이터 저장시 DW가 좋음
  • 데이터 양이 많은 경우, 특정 관심사에 맞는 데이터 마트를 만들 수도 있음

Reference

https://aws.amazon.com/ko/compare/the-difference-between-a-data-warehouse-data-lake-and-data-mart/

Comments