목록Home (246)
without haste but without rest
M1 Mac에서의 JVM/JDK 문제 · Issue #353 · konlpy/konlpy M1 칩이 탑재된 맥에서 java 환경변수가 설정되어 있지 않거나, JDK가 설치되어 있고 환경변수가 설정되어 있더라도 JDK에 따라 konlpy를 사용할 때 다음과 같은 오류가 발생합니다. # Test code from konlpy github.com 줄루 자바 15버전 설치하고 jvm path를 따로 코드에 추가해주는 게 확실하다. 예시 from konlpy.tag import Okt jvm_path = "/Library/Java/JavaVirtualMachines/zulu-15.jdk/Contents/Home/bin/java" okt = Okt(jvmpath=jvm_path)
# gitignore 캐시 파일 제거 ex).DS_Store git rm --cached .DS_Store# 캐시 파일 제거 echo .DS_Store >> /.gitignore# gitignore 파일에 해당 파일 추가
에러 로그를 보니 rdkafka.h 파일이 없어서 해당 라이브러리 설치가 안된다고 하는데 아무리 찾아봐도 /usr/local/include 디렉토리가 없다. 조금 오래된 게시글을 보니 brew 사용해서 librdkafka를 설치하라고 하는데, 내 맥에서는 작동을 안한다. 구글링 하던 중 아래 게시글을 발견했고 해결했다. 한국분이 질문을 올리셨는데 넘모 감사할따름.. 위 리포 클론해서 그대로 진행하면 /usr/local/include 경로에 필요한 의존성 파일들을 설치한다. 이후 다시 pip 이용해서 confluent_kafka 인스톨을 진행하면 문제없이 잘 설치된다. Install failed in Apple Silicon · Issue #1025 · confluentinc/confluent-kafka-..
잘 작동하던 테스트용 하둡이 해당 에러를 뱉어냈는데, 환경변수가 잘 잡혀 있었다. 스택 오버플로우 찾아보니 hadoop-env.sh 파일에서 JAVA_HOEM을 하드코딩 해주어야 한다. 댓글 보니 하둡 1에서 3버전까지 모두 잘 작동하는 듯 Working With Hadoop: localhost: Error: JAVA_HOME is not set I'm working with Ubuntu 12.04 LTS. I'm going through the hadoop quickstart manual to make a pseudo-distributed operation. It seems simple and straightforward (easy!). However, when I try to run... stacko..
./gradlew wrapper --gradle-version 4.10.2
spark2 버전은 python3.7까지만 지원한다. 파이썬 3.8을 쓰고 있어서 에러가 발생했다. 3.7 버전으로 변경해주었더니 정상 작동한다. PySpark 2.4.5 is not compatible with Python 3.8.3, how do I solve this? Code from pyspark import SparkContext,SparkConf conf=SparkConf().setMaster('local').setAppName('Test App') sc=SparkContext(conf) Error Message Traceback (most recent call last): File ... stackoverflow.com
서비스 운영환경에서 하둡을 루트 유저로 사용하지 않는 경우에는 권한 문제로 인한 에러가 자주 발생한다. 루트로 운영하지 않는 경우에는 특정 유저의 home 디렉토리 내부에서 운영하는 게 바람직하며 yarn의 경우 디폴트 tmp 디렉토리가 /tmp라서 yarn 디폴트 디렉토리 변경해주는 설정을 찾아봐야 할 듯...
데이터 레이크 아키텍처의 2 종류 람다 아키텍처(lambda architecture) 카파 아키텍처(kappa architercture) 1. 람다 아키텍처 초기 빅데이터 플랫폼은 엔드 투 엔드로 각 서비스 어플리케이션으로부터 데이터를 배치로 수집함 따라서 데이터를 배치로 모으는 구조는 유연하지 못했으며 실시간으로 생성되는 데이터들에 대한 인사이트를 서비스 애플리케이션에 빠르게 전달하지 못하는 단점이 있었다. 스피드 레이어와 배치 레이어로 구성하며 실시간 뷰를 만들기 위해 스피드 레이어를 사용하고 배치 레이어를 사용해서 배치뷰를 만드는 방법인데, 리소스 소비가 크다. + 데이터 파편화 문제 람다 아키텍처는 배치레이어, 서빙레이어, 스피드 레이어를 분리함 단점은 추가적인 오버헤드 및 작업이 필요하다는 것 ..