목록Data Engineering & DataOps (35)
without haste but without rest
에러 로그를 보니 rdkafka.h 파일이 없어서 해당 라이브러리 설치가 안된다고 하는데 아무리 찾아봐도 /usr/local/include 디렉토리가 없다. 조금 오래된 게시글을 보니 brew 사용해서 librdkafka를 설치하라고 하는데, 내 맥에서는 작동을 안한다. 구글링 하던 중 아래 게시글을 발견했고 해결했다. 한국분이 질문을 올리셨는데 넘모 감사할따름.. 위 리포 클론해서 그대로 진행하면 /usr/local/include 경로에 필요한 의존성 파일들을 설치한다. 이후 다시 pip 이용해서 confluent_kafka 인스톨을 진행하면 문제없이 잘 설치된다. Install failed in Apple Silicon · Issue #1025 · confluentinc/confluent-kafka-..
잘 작동하던 테스트용 하둡이 해당 에러를 뱉어냈는데, 환경변수가 잘 잡혀 있었다. 스택 오버플로우 찾아보니 hadoop-env.sh 파일에서 JAVA_HOEM을 하드코딩 해주어야 한다. 댓글 보니 하둡 1에서 3버전까지 모두 잘 작동하는 듯 Working With Hadoop: localhost: Error: JAVA_HOME is not set I'm working with Ubuntu 12.04 LTS. I'm going through the hadoop quickstart manual to make a pseudo-distributed operation. It seems simple and straightforward (easy!). However, when I try to run... stacko..
spark2 버전은 python3.7까지만 지원한다. 파이썬 3.8을 쓰고 있어서 에러가 발생했다. 3.7 버전으로 변경해주었더니 정상 작동한다. PySpark 2.4.5 is not compatible with Python 3.8.3, how do I solve this? Code from pyspark import SparkContext,SparkConf conf=SparkConf().setMaster('local').setAppName('Test App') sc=SparkContext(conf) Error Message Traceback (most recent call last): File ... stackoverflow.com
서비스 운영환경에서 하둡을 루트 유저로 사용하지 않는 경우에는 권한 문제로 인한 에러가 자주 발생한다. 루트로 운영하지 않는 경우에는 특정 유저의 home 디렉토리 내부에서 운영하는 게 바람직하며 yarn의 경우 디폴트 tmp 디렉토리가 /tmp라서 yarn 디폴트 디렉토리 변경해주는 설정을 찾아봐야 할 듯...
데이터 레이크 아키텍처의 2 종류 람다 아키텍처(lambda architecture) 카파 아키텍처(kappa architercture) 1. 람다 아키텍처 초기 빅데이터 플랫폼은 엔드 투 엔드로 각 서비스 어플리케이션으로부터 데이터를 배치로 수집함 따라서 데이터를 배치로 모으는 구조는 유연하지 못했으며 실시간으로 생성되는 데이터들에 대한 인사이트를 서비스 애플리케이션에 빠르게 전달하지 못하는 단점이 있었다. 스피드 레이어와 배치 레이어로 구성하며 실시간 뷰를 만들기 위해 스피드 레이어를 사용하고 배치 레이어를 사용해서 배치뷰를 만드는 방법인데, 리소스 소비가 크다. + 데이터 파편화 문제 람다 아키텍처는 배치레이어, 서빙레이어, 스피드 레이어를 분리함 단점은 추가적인 오버헤드 및 작업이 필요하다는 것 ..
카프카는 성능 테스트를 기본적으로 제공하고 있다. 아래 과정으로 현재 구축한 카프카 클러스터의 성능이 어느정도 나오는지 확인할 수 있다. 해당 쉘 파일은 카프카를 설치한 하위 디렉토리 bin에 있다. 0. create topic 앞서 구축한 테스트용 카프카 클러스터의 브로커는 3대이므로 복제 개수는 3개이며 파티션도 3개로 토픽을 생성했다. (브로커 개수의 2배인 파티션 6개로 증가시켰을 때 근소하게 성능 향상이 있었다. 12개는 6개와 성능 차이가 없었다..이 부분은 더 자세히 파악하고 추가할 예정이다.) 토픽 이름은 간단하게 bmt로 설정 bin/kafka-topics.sh --create --bootstrap-server \ broker-server1:9092,broker-server2:9092,b..
OS: ubuntu 20.04 LTS kafka: 2.5.0 broker: 3대 각 서버에 카프카 설치를 한다. 카프카 2.6버전 이후부터 주키퍼가 빠졌는데, 해당 테스트에서는 주키퍼를 사용하는 2.5버전을 사용했다. 주키퍼 설정, 카프카 설정은 기본옵션을 사용했으며 각 서버에 동일하고, 포트 설정 정도만 변경해준다. 1. kafka install wget http://archive.apache.org/dist/kafka/2.5.0/kafka_2.13-2.5.0.tgz tar -zxvf kafka rm kafka_2.13-2.5.0.tgz 2. 주키퍼 설정 # 카프카 설치한 디렉토리 패스로 이동 vi config/zookeeper.properties 아래 설정이 주키퍼 기본 세팅 #zookeeper.pr..