목록Data Engineering & DataOps/Spark (5)
without haste but without rest
환경 MacOS: Monterey 12.1 IntelliJ: 2021.03.01 Java: 8 sbt: 1.6.0 Scala: 2.12.0 Spark: 3.1.2 1. Intellij 플러그인에서 스칼라 설치 scala 플러그인을 설치한다. (맥 os 기준으로 인텔리제이에서 쉬프트를 두번 누르면 검색 탭이 나타나는데 plugins를 검색해서 진입할 수도 있다. ) 2. 스칼라 프로젝트 생성 구글링 해보니 메이븐으로 생성하기도 하던데 스칼라 공식 도큐먼트에서는 sbt 기준으로 설명을 해서 sbt로 진행했다. sbt란 무엇인가? sbt (software) - Wikipedia From Wikipedia, the free encyclopedia Jump to navigation Jump to search Op..
https://zeppelin.apache.org/docs/0.10.0/quickstart/docker.html
Spark Streaming - Spark 3.2.0 Documentation Spark Streaming Programming Guide Overview Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams. Data can be ingested from many sources like Kafka, Kinesis, or T spark.apache.org A Quick Example 특정 포트로 들어오는 텍스트를 분리해서 카운팅 하는 예제 # network_wordcount.py from pysp..
Spark: The Definitive Guide 0.Spark 스파크는 대규모 데이터 처리를 위한 인메모리 기반 분석 엔진이다. 스파크의 철학은 "빅데이터를 위한 통합 컴퓨팅 엔진"과 "라이브러리 집합"이다. 최근 반복적인 연산을 필요로하는 기계학습과 데이터 분석등이 대두되며 스파크의 인기가 많아졌다. (1) 통합 컴퓨팅 엔진 빅데이터 애플리케이션 개발에 필요한 통합 플랫폼을 제공하고자 하는 핵심 목표를 가지고 있다. 이때 간단한 데이터 읽기에서, SQL 처리, 머신러닝 그리고 스트림 처리까지 다양한 데이터 분석 작업을 같은 연산 엔진과 일관성 있는 API로 수행할 수 있도록 함을 의미한다. 스파크는 통합이라는 관점을 중시하기 때문에 기능의 범위를 컴퓨팅 엔진으로 제한해왔다. 그 결과 스파크는 저장소(..
spark2 버전은 python3.7까지만 지원한다. 파이썬 3.8을 쓰고 있어서 에러가 발생했다. 3.7 버전으로 변경해주었더니 정상 작동한다. PySpark 2.4.5 is not compatible with Python 3.8.3, how do I solve this? Code from pyspark import SparkContext,SparkConf conf=SparkConf().setMaster('local').setAppName('Test App') sc=SparkContext(conf) Error Message Traceback (most recent call last): File ... stackoverflow.com