without haste but without rest
Zeppelin 커스텀 컨테이너 이미지 빌드 본문
https://zeppelin.apache.org/docs/0.10.0/quickstart/docker.html
제플린은 현재 0.10.0 버전까지 나와있는데, 커스텀 이미지로 빌드하는 내용은 0.8.0으로 소개하고 있다. 0.9.0 이후 버전으로 시도하면 이미지를 별도로 수정할 수 없게끔 락을 걸어둔 것 같다.
그런데.. 스파크 3버전 대에서 사용하는 파이썬 버전과 기가막히게 하나씩 피해가서 스파크나 제플린 컨테이너 이미지에서 파이썬 버전을 별도로 변경해야 한다. 따라서 별로 추천하고 싶은 방법은 아닌 거 같다. 인터프리터 노트북 환경에서 테스트를 하고 싶다면 컨테이너 보다는 제플린과 스파크를 로컬에서 띄우는 게 더 나은 듯 하다.
FROM apache/zeppelin:0.8.0
MAINTAINER Apache Software Foundation <dev@zeppelin.apache.org>
ENV SPARK_VERSION=2.3.3
ENV HADOOP_VERSION=2.7
# support Kerberos certification
RUN export DEBIAN_FRONTEND=noninteractive && apt-get update && apt-get install -yq krb5-user libpam-krb5 && apt-get clean
RUN apt-get update && apt-get install -y curl unzip wget grep sed vim tzdata && apt-get clean
# auto upload zeppelin interpreter lib
RUN rm -rf /zeppelin
RUN rm -rf /spark
RUN wget https://www-us.apache.org/dist/spark/spark-${SPARK_VERSION}/spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}.tgz
RUN tar zxvf spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}.tgz
RUN mv spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION} spark
RUN rm spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}.tgz
'Data Engineering & DataOps > Spark' 카테고리의 다른 글
IntelliJ에서 Scala로 Spark 프로젝트 시작하기 (0) | 2022.02.18 |
---|---|
Spark Streaming tutorial (0) | 2022.01.07 |
Spark 개념과 특징 (0) | 2021.12.10 |
spark2 - pyspark TypeError: an integer is required (got type bytes) & zeppelin pyspark is not responding (0) | 2021.08.05 |
Comments