목록플럼 (1)
without haste but without rest
Flume 개념과 agent.conf 파일 작성 예시
0. Flume 플럼은 로그 데이터를 효율적이고 안정적으로 수집할 수 있는 프레임워크다. 하둡 에코시스템에서 버퍼 스토리지 역할로 사용한다. 스트리밍 데이터를 카프카로 받고 HDFS에 바로 저장하면 블록이 수도없이 생긴다. 따라서 일정 크기 이상까지 데이터를 모은 뒤 HDFS에 저장해야한다. 해당 버퍼 역할을 위해 사용할 수 있는 것이 플럼이다. 1. 아키텍처 이미지 출처 플럼은 source, channel, sink 세 가지로 구성되어있다. source는 플럼이 데이터를 받아오는 곳이다. channel은 플럼 자체로 메모리 기반과 디스크 기반 중에서 선택할 수 있다. sink는 최종적으로 데이터를 전송하는 곳이다. 플럼은 위 세가지 사항을 명시한 conf 파일을 작성하여 실행한다. 2. conf 파일 ..
Data Engineering & DataOps
2021. 12. 10. 15:48