목록하둡 (5)
without haste but without rest
Hadoop: The Definitive Guide 0. Hadoop 하둡은 컴퓨터 클러스터를 구축하여 대규모 데이터 셋을 처리할 수 있는 프레임워크이다. 단일 서버에서 수천 대의 머신으로 이루어진 클러스터로 확장 가능하도록 설계되었다. 관계형 데이터베이스와의 가장 큰 차이점은 관계형 데이터베이스의 경우 상대적으로 적은 양의 데이터를 낮은 지연 시간에 처리하기 위해 데이터셋을 인덱싱하기 때문에 지속적으로 변경되는 데이터셋에 적합하다. 반면 하둡은 데이터를 한 번 저장하고 여러번 읽는 어플리케이션에 적합하다. 베이스 아파치 하둡 프레임워크는 아래 모듈을 포함한다. Hadoop Common HDFS(Hadoop Distributed File System) MapReduce YARN (Yet Another R..
서비스 운영환경에서 하둡을 루트 유저로 사용하지 않는 경우에는 권한 문제로 인한 에러가 자주 발생한다. 루트로 운영하지 않는 경우에는 특정 유저의 home 디렉토리 내부에서 운영하는 게 바람직하며 yarn의 경우 디폴트 tmp 디렉토리가 /tmp라서 yarn 디폴트 디렉토리 변경해주는 설정을 찾아봐야 할 듯...
하둡 설정 건드리던 중 클러스터 작동 중에 네임노드 포맷을 해버림 stop-all.sh 명령어 이후 네임노드와 데이터노드들이 꼬여서 실행이 불가능했음 "java.io.IOException: There appears to be a gap in the edit log. We expected txid 266, but got txid 2672" 위와 비슷한 에러 로그 발견 열심히 구글링 했으나 마땅한 방법이 없어보임 하둡 네임노드, 데이터노드 디렉토리 "hadoop-data"에 위치한 파일을 모두 날렸더니 다시 작동은 한다. 데이터도 같이 휘발되므로 백업 필수
core-site.xml 파일에 아래 프로퍼티를 추가해준다. "your-hadoop-user-name"에는 하둡을 실행 중인 유저의 이름을 적어주면 된다. 해당 설정 추가하고 하둡 재시작. hadoop.http.staticuser.user your-hadoop-user-name
0. 환경 - 클라우데라 6.3.1 1. mysql driver 설치 클라우데라 환경에서 postgre db는 디폴트로 드라이버를 제공하지만 mysql은 드라이버를 제공하지 않는다. 아래 링크를 이용해서 파일을 다운로드 한다. wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.28.tar.gz 다운로드한 mysql jdbc 드라이버 압축을 푼다. tar xvf mysql-connector-java-5.1.28.tar.gz 압축을 풀고 디렉토리에 접근하면 jdbc 파일을 찾을 수 있다. (확장자는 .jar ) 해당 파일을 /opt/cloudera/parcels/CDH/lib/sqoop/lib 로 복사한다. (postge..