목록하이브 (1)
without haste but without rest
Hive 개념과 특징
0. Hive 하둡의 맵리듀스 작업을 실행하는 방법은 여러가지가 존재한다. 정형, 반정형, 비정형 데이터에 대해 자바 맵리듀스 프로그램을 사용하는 기존 방법 Pig를 사용해서 구조화된 데이터와 반구조화된 데이터를 스크립팅(절차적 언어)로 처리하는 방법 Hive를 사용해서 구조화된 데이터를 맵리듀스용 쿼리 언어인 HiveQL 사용해서 처리하는 방법 Hive는 하둡에서 구조화된 데이터를 처리하기 위한 데이터 웨어하우스 인프라 도구다. 빅데이터를 요약하고 쿼리 및 분석을 쉽게 만들어준다. 기존의 자바 기반으로 프로그램을 작성해야하는 맵리듀스를 SQL로 작성가능하다는 것이 포인트다. (분석 엔진은 현재는 Tez를 기반으로 사용하는 것으로 알고 있고, 인메모리 기반인 Presto(프레스토)도 하이브와 함께 언급되..
Data Engineering & DataOps/Hadoop
2021. 12. 10. 15:28