목록Data Engineering & DataOps/Hadoop (8)
without haste but without rest
Hadoop: The Definitive Guide 0. Hadoop 하둡은 컴퓨터 클러스터를 구축하여 대규모 데이터 셋을 처리할 수 있는 프레임워크이다. 단일 서버에서 수천 대의 머신으로 이루어진 클러스터로 확장 가능하도록 설계되었다. 관계형 데이터베이스와의 가장 큰 차이점은 관계형 데이터베이스의 경우 상대적으로 적은 양의 데이터를 낮은 지연 시간에 처리하기 위해 데이터셋을 인덱싱하기 때문에 지속적으로 변경되는 데이터셋에 적합하다. 반면 하둡은 데이터를 한 번 저장하고 여러번 읽는 어플리케이션에 적합하다. 베이스 아파치 하둡 프레임워크는 아래 모듈을 포함한다. Hadoop Common HDFS(Hadoop Distributed File System) MapReduce YARN (Yet Another R..
0. Hive 하둡의 맵리듀스 작업을 실행하는 방법은 여러가지가 존재한다. 정형, 반정형, 비정형 데이터에 대해 자바 맵리듀스 프로그램을 사용하는 기존 방법 Pig를 사용해서 구조화된 데이터와 반구조화된 데이터를 스크립팅(절차적 언어)로 처리하는 방법 Hive를 사용해서 구조화된 데이터를 맵리듀스용 쿼리 언어인 HiveQL 사용해서 처리하는 방법 Hive는 하둡에서 구조화된 데이터를 처리하기 위한 데이터 웨어하우스 인프라 도구다. 빅데이터를 요약하고 쿼리 및 분석을 쉽게 만들어준다. 기존의 자바 기반으로 프로그램을 작성해야하는 맵리듀스를 SQL로 작성가능하다는 것이 포인트다. (분석 엔진은 현재는 Tez를 기반으로 사용하는 것으로 알고 있고, 인메모리 기반인 Presto(프레스토)도 하이브와 함께 언급되..
잘 작동하던 테스트용 하둡이 해당 에러를 뱉어냈는데, 환경변수가 잘 잡혀 있었다. 스택 오버플로우 찾아보니 hadoop-env.sh 파일에서 JAVA_HOEM을 하드코딩 해주어야 한다. 댓글 보니 하둡 1에서 3버전까지 모두 잘 작동하는 듯 Working With Hadoop: localhost: Error: JAVA_HOME is not set I'm working with Ubuntu 12.04 LTS. I'm going through the hadoop quickstart manual to make a pseudo-distributed operation. It seems simple and straightforward (easy!). However, when I try to run... stacko..
서비스 운영환경에서 하둡을 루트 유저로 사용하지 않는 경우에는 권한 문제로 인한 에러가 자주 발생한다. 루트로 운영하지 않는 경우에는 특정 유저의 home 디렉토리 내부에서 운영하는 게 바람직하며 yarn의 경우 디폴트 tmp 디렉토리가 /tmp라서 yarn 디폴트 디렉토리 변경해주는 설정을 찾아봐야 할 듯...
하둡 설정 건드리던 중 클러스터 작동 중에 네임노드 포맷을 해버림 stop-all.sh 명령어 이후 네임노드와 데이터노드들이 꼬여서 실행이 불가능했음 "java.io.IOException: There appears to be a gap in the edit log. We expected txid 266, but got txid 2672" 위와 비슷한 에러 로그 발견 열심히 구글링 했으나 마땅한 방법이 없어보임 하둡 네임노드, 데이터노드 디렉토리 "hadoop-data"에 위치한 파일을 모두 날렸더니 다시 작동은 한다. 데이터도 같이 휘발되므로 백업 필수
core-site.xml 파일에 아래 프로퍼티를 추가해준다. "your-hadoop-user-name"에는 하둡을 실행 중인 유저의 이름을 적어주면 된다. 해당 설정 추가하고 하둡 재시작. hadoop.http.staticuser.user your-hadoop-user-name
참조 - https://medium.com/dataseries/copy-hadoop-data-hive-to-s3-bucket-d1ffb59279c8 Copy Hadoop Data — Hive to S3 Bucket WHAT IS S3: S3 stands for “Simple Storage Service” and is offered by Amazon Web Services. It provides a simple to use file object storage… medium.com 짧게 요약한 아티클 참조 - https://docs.cloudera.com/documentation/enterprise/5-8-x/topics/cdh_admin_distcp_data_cluster_migrate.html Copyi..
0. 환경 - 클라우데라 6.3.1 1. mysql driver 설치 클라우데라 환경에서 postgre db는 디폴트로 드라이버를 제공하지만 mysql은 드라이버를 제공하지 않는다. 아래 링크를 이용해서 파일을 다운로드 한다. wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.28.tar.gz 다운로드한 mysql jdbc 드라이버 압축을 푼다. tar xvf mysql-connector-java-5.1.28.tar.gz 압축을 풀고 디렉토리에 접근하면 jdbc 파일을 찾을 수 있다. (확장자는 .jar ) 해당 파일을 /opt/cloudera/parcels/CDH/lib/sqoop/lib 로 복사한다. (postge..