without haste but without rest
데이터 레이크 아키텍처 본문
데이터 레이크 아키텍처의 2 종류
- 람다 아키텍처(lambda architecture)
- 카파 아키텍처(kappa architercture)
1. 람다 아키텍처
초기 빅데이터 플랫폼은 엔드 투 엔드로 각 서비스 어플리케이션으로부터 데이터를 배치로 수집함
따라서 데이터를 배치로 모으는 구조는 유연하지 못했으며 실시간으로 생성되는 데이터들에 대한 인사이트를 서비스 애플리케이션에 빠르게 전달하지 못하는 단점이 있었다.
스피드 레이어와 배치 레이어로 구성하며 실시간 뷰를 만들기 위해 스피드 레이어를 사용하고 배치 레이어를 사용해서 배치뷰를 만드는 방법인데, 리소스 소비가 크다.
+ 데이터 파편화 문제
람다 아키텍처는 배치레이어, 서빙레이어, 스피드 레이어를 분리함
단점은 추가적인 오버헤드 및 작업이 필요하다는 것
2. 카파 아키텍처
람다 아키텍처의 단점을 해소하기 위해 등장함 배치 레이어를 제거하고 모든 데이터를 스피드 레이어에 넣어서 처리한다.
모든 데이터를 스피드 레이어(카프카)에서 처리하고 서빙 레이어(하둡)에 적재하여 데이터를 활용함
스트림 처리를 멱등으로 구현하여 출력 결과를 다시 쓰는 방법인데, 배치 처리와 같은 과거 데이터의 일괄 처리를 스트림 처리만으로 실행한다. 클라우드 서비스 보급으로 인해서 리소스를 확보하게 되어서 스트림 처리를 다시하는 것이 람다 아키텍처보다 더 간단할 수 있다는 것이 카파 아키텍처의 근간
'Data Engineering & DataOps' 카테고리의 다른 글
데이터 파이프라인에서 중복 데이터 핸들링 방법 (0) | 2022.02.03 |
---|---|
워크플로우 관리와 멱등성 (0) | 2022.02.03 |
Flume 개념과 agent.conf 파일 작성 예시 (0) | 2021.12.10 |
카프카 중복 메시지 핸들링 with python (0) | 2021.04.29 |
Comments