목록Home (246)
without haste but without rest
1. MongoDB 몽고디비는 NoSQL 데이터베이스로 데이터를 bson 형태로 저장하는 도큐먼트 기반 형식이다. bson은 json 데이터를 binary로 인코딩한 포맷이며 json 보다 더 다양한 형태를 지원한다. bson document- [https://docs.mongodb.com/manual/reference/bson-types/ (https://docs.mongodb.com/manual/reference/bson-types/) 2. Basic Command (1) Create 데이터베이스 생성 & 전환 use db_namedb_name 데이터베이스를 사용한다. 없으면 생성한다. 컬렉션 생성 db.collection_name.insert_one(bson)컬렉션 이름을 지정하고 데이터를 삽입하면..
참조 - https://medium.com/dataseries/copy-hadoop-data-hive-to-s3-bucket-d1ffb59279c8 Copy Hadoop Data — Hive to S3 Bucket WHAT IS S3: S3 stands for “Simple Storage Service” and is offered by Amazon Web Services. It provides a simple to use file object storage… medium.com 짧게 요약한 아티클 참조 - https://docs.cloudera.com/documentation/enterprise/5-8-x/topics/cdh_admin_distcp_data_cluster_migrate.html Copyi..
1. 관련 라이브러리 설치 pip install awscli pip install boto3 aws cli는 aws인증을 위해 사용하는 라이브러리이고, boto3는 S3에 접근해서 조작할 수 있다. 2. 터미널 환경에서 aws configure 해당 부분은 aws에서 IAM 설정으로 S3를 사용하기 위한 사용자를 만들면 AWS Access key와 Secret Access Key를 제공한다. 3. boto3로 S3에 접근하기 import boto3 s3 = boto3.client('s3') try: s3.upload_file("test_input.txt", "Your-bucket-name", "test_input.txt") except Exception as err: print("input error",..
0. 환경 - 클라우데라 6.3.1 1. mysql driver 설치 클라우데라 환경에서 postgre db는 디폴트로 드라이버를 제공하지만 mysql은 드라이버를 제공하지 않는다. 아래 링크를 이용해서 파일을 다운로드 한다. wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.28.tar.gz 다운로드한 mysql jdbc 드라이버 압축을 푼다. tar xvf mysql-connector-java-5.1.28.tar.gz 압축을 풀고 디렉토리에 접근하면 jdbc 파일을 찾을 수 있다. (확장자는 .jar ) 해당 파일을 /opt/cloudera/parcels/CDH/lib/sqoop/lib 로 복사한다. (postge..
첫 번째로 확인할 사항 권한 설정및 방화벽, 포트 등 모든 설정을 다 했는데도 error 1130이 뜨면서 권한이 없다고 뜬다면! 혹시나 데스크탑에 mysql이 설치되어서 3306 포트를 이미 쓰고 있는 게 아닌지 확인하자... 구글링하다가 인터넷 티비 통신사를 바꾸고 나서 접속이 안된다는 글을 보고 아 인터넷 티비 모뎀도 공유기구나 싶어서 확인을 해보니 인터넷 티비 공유기에서 포트를 안 열어줘서 그랬다. 두 번째로 확인할 사항 오늘 4시간 헤매면서 막판에 게스트 os의 mysql 외부 포트를 3306이 아닌 포트로 변경하고 내부 포트는 3306 그대로 뒀더니 정상적으로 잘 접속된다. 호스트 os에 mysql이 이미 설치가 되어 있어서 호스트 os가 3306포트를 잡고 있었다 (설치한 것도 모르고 있었다..
참조 - https://docs.aws.amazon.com/ko_kr/AWSEC2/latest/UserGuide/ec2-instances-and-amis.html 인스턴스 및 AMI - Amazon Elastic Compute Cloud 인스턴스 및 AMI Amazon 머신 이미지(AMI)는 소프트웨어 구성이 기재된 템플릿입니다(예: 운영 체제, 애플리케이션 서버, 애플리케이션). AMI에서 인스턴스를 바로 시작하실 수 있는데, 이 인스턴스는 docs.aws.amazon.com AMI: 소프트웨어 구성이 기재된 템플릿 인스턴스: 클라우드의 가상 서버
0. 개요 - 장점 1. 워킹디렉토리를 변경하거나 새로 시작해도 라이브러리를 다시 설치할 필요가 없다. 2. 텐서플로우 같은 라이브러리는 가상환경을 잡고 쓰지 않으면 구동이 안되는 경우가 있다. 하지만 이 모든게 귀찮다면 colab으로 가자... 1. 아나콘다 프롬프트에서 가상환경 생성 conda create -n env_name 아나콘다 프롬프트 환경에서 해당 명령어로 가상환경을 잡을 수 있다. conda activate env_name 위 명령어로 가상환경을 구동시킬 수 있다. conda deactivate 가상환경 종료 명령어 가상환경을 처음 잡고나면 사용하고자 하는 라이브러리는 다시 설치해줘야 한다. conda install 라이브러리 2. 파이참에서 가상환경 가져오기 env_test라는 로케이션..
참조 - https://analyticshut.com/kafka-producer-and-consumer-in-python/ Kafka Producers and Consumers in Python | Analyticshut After writing consumers, producers and topics in Java, we will do the same in Python with just 10% lines of code. analyticshut.com 0. 개요 데이터 파이프라인 구축 공부를 위해서 파이썬으로 카프카 프로듀서를 만들었다. 프로듀서를 만든 환경은 윈도우이며 파이참을 사용했다. 카프카 브로커 클러스터는 aws ec2에 구축한 상태이다. 윈도우가 프롬프트 라인에서 ssh를 제공하지만 권한 문제..