본문 바로가기
1. 개발/1.4. 데이터 분석

데이터 레이크하우스(Data Lakehouse)

by 엉짱 2026. 2. 4.
반응형

🫡 데이터 엔지니어링 업계의 가장 뜨거운 감자이자, "왜 굳이 두 개의 창고(Lake와 DW)를 따로 운영해서 관리 포인트만 늘리느냐!"라는 불만에서 탄생한 구세주, 데이터 레이크하우스(Data Lakehouse)에 대해 딥다이브 해보겠습니다.

단순히 두 단어를 합친 게 아니라, 기술적으로 어떤 혁신이 있었기에 가능한 일인지 파헤쳐 드릴게요!


🏗️ 데이터 레이크하우스(Data Lakehouse): "창고와 백화점의 경계를 허물다"

전통적으로 우리는 저렴하지만 관리가 힘든 데이터 레이크와, 비싸지만 성능이 좋은 데이터 웨어하우스(DW)를 따로 두고 그 사이를 ETL로 연결하며 고생했습니다. 하지만 레이크하우스는 "저렴한 데이터 레이크(S3 등) 위에 DW 수준의 고성능 관리 기능을 얹어버리자!"는 아이디어에서 시작되었습니다.

1. 왜 레이크하우스가 등장했는가? (Problem & Solution)

과거의 방식은 두 가지 큰 문제점이 있었습니다.

  • 데이터 파편화: 같은 데이터가 레이크에도 있고 DW에도 있습니다. 어느 쪽이 최신인지 헷갈리죠. (Data Inconsistency)
  • 비용과 복잡성: 데이터를 옮기는 과정(ETL) 자체가 리소스 낭비고, 두 시스템을 관리할 인력도 두 배로 듭니다.

해결책: "데이터는 그냥 저렴한 S3(데이터 레이크)에 둬라. 대신 그 위에 특수한 레이어를 깔아서 DW처럼 트랜잭션도 지원하고 쿼리도 빠르게 만들어줄게!" 이것이 바로 레이크하우스입니다.


2. 레이크하우스를 가능하게 하는 '3대 기술 레이어'

레이크하우스가 단순히 "S3에 SQL 던지기"가 아닌 이유는 바로 이 테이블 포맷(Table Format) 기술들 덕분입니다. 이 기술들이 데이터 레이크에 '질서'를 부여합니다.

① Delta Lake (Databricks 주도)

  • ACID 트랜잭션: 데이터 레이크에서도 "쓰다가 끊기면 취소(Rollback)"가 가능해졌습니다. 데이터가 꼬일 일이 없죠.
  • Time Travel: 과거 특정 시점의 데이터 상태로 되돌릴 수 있습니다. "어제 오후 2시 데이터로 다시 분석해줘"가 가능합니다.

② Apache Iceberg (Netflix 주도)

  • 스키마 진화: 데이터 컬럼을 추가하거나 이름을 바꿔도 전체 데이터를 다시 쓸 필요가 없습니다. 유연성이 극대화되죠.
  • 파일 레벨 관리: 수조 개의 파일 중 필요한 파일만 콕 집어 읽는 능력이 탁월해서 쿼리 속도가 DW급으로 나옵니다.

③ Apache Hudi (Uber 주도)

  • 실시간 업데이트: 데이터 레이크는 원래 '수정'이 힘들었는데, Hudi는 변경된 부분만 빠르게 업데이트(Upsert)하는 데 특화되어 있습니다.

3. 레이크하우스의 4가지 핵심 특징 (Deep Dive)

레이크하우스가 대세인 이유는 단순히 '편해서'가 아니라 아래의 강력한 기능들 때문입니다.

  1. 트랜잭션 지원 (ACID): 여러 명의 작업자가 동시에 데이터를 쓰고 읽어도 데이터가 깨지지 않습니다. 이건 원래 DW만의 전유물이었습니다.
  2. 스키마 강제 및 거버넌스: 데이터 레이크가 '늪'이 되지 않도록, 잘못된 형식의 데이터가 들어오면 입구에서 컷(Cut)합니다. 데이터 품질 관리가 가능해진 거죠.
  3. BI와 AI의 결합: 분석가들은 SQL로 보고서(BI)를 만들고, 데이터 과학자들은 똑같은 데이터로 파이썬 머신러닝(AI) 모델을 돌립니다. "Single Source of Truth(단일 진실 공급원)"가 실현됩니다.
  4. 저렴한 고성능: 데이터는 저렴한 오브젝트 스토리지(S3)에 있지만, 성능은 고가의 DW 못지않습니다.

4. 실전 비유: "물류 창고 안에 차려진 프리미엄 쇼룸"

  • 데이터 레이크: 거대한 물류 창고 바닥에 박스들이 널브러져 있습니다. 물건 찾기가 지옥이죠.
  • 데이터 웨어하우스: 백화점입니다. 물건은 찾기 쉽지만 비싸고, 물건을 들여올 때마다 엄격한 심사를 거칩니다.
  • 레이크하우스: 거대한 물류 창고인데, 최첨단 자동화 시스템(로봇 팔)이 도입된 상태입니다. 물건은 창고 가격으로 싸게 보관하면서, 로봇이 원하는 물건을 백화점 직원보다 빠르게 가져다줍니다. 심지어 창고 한편에는 쇼룸(DW 기능)도 있고, 연구실(AI 기능)도 붙어 있는 격입니다.

[Image comparing Data Warehouse, Data Lake, and Data Lakehouse architectures side by side]


5. 체감할 변화: "ETL의 종말?"

레이크하우스가 정착되면 업무에서 "데이터 옮기기(ETL)" 비중이 획기적으로 줄어듭니다.

  • 예전: S3(Raw) -> Spark 가공 -> Redshift(DW) 로드
  • 현재: S3(Iceberg/Delta 포맷) -> 가공 및 즉시 쿼리
    데이터가 이동하지 않고 제자리에서 가공되고 소비되는 "Data Gravity(데이터 중력)" 현상이 강화되는 것이죠.

반응형