목록S3 (4)
without haste but without rest
HDFS vs S3 HDFS 수평 확장 - 확장 시 직접 노드를 추가해야 한다. 미리 정해진 사이즈가 있다. 스토리지 포맷에 제한이 없다. S3 수직 확장 볼륨 사이즈의 제한이 없다. (미리 정해진 볼륨 사이즈가 없다.) 파일당 최대 크기 제한은 5GB 스토리지 포맷에 제한 - ORC 사용 불가 object storage s3 comes out on top for scalability, durability, persistance, price 확장성, 내구성, 비용 측면에서 s3가 더 좋지만, 레이턴시, 쓰로우풋 같은 퍼포먼스 측면에서는 HDFS가 더 좋다 https://www.integrate.io/blog/storing-apache-hadoop-data-cloud-hdfs-vs-s3/ Storing A..
boto3 docs 어떻게 접근해야할까? boto3 클래스의 클라이언트 메서드는 액세스 키를 이용해서 접근한다. 그런데 로컬스택은 엔드 포인트를 지정해주어야 한다. 다행히 boto3 를라이언트는 엔드 포인트를 지정하는 파라미터가 존재한다. 버킷 리스트 확인 import boto3 # Retrieve the list of existing buckets s3 = boto3.client('s3', endpoint_url="http://localhost:4566") response = s3.list_buckets() # Output the bucket names print('Existing buckets:') for bucket in response['Buckets']: print(f' {bucket["Name..
참조 - https://medium.com/dataseries/copy-hadoop-data-hive-to-s3-bucket-d1ffb59279c8 Copy Hadoop Data — Hive to S3 Bucket WHAT IS S3: S3 stands for “Simple Storage Service” and is offered by Amazon Web Services. It provides a simple to use file object storage… medium.com 짧게 요약한 아티클 참조 - https://docs.cloudera.com/documentation/enterprise/5-8-x/topics/cdh_admin_distcp_data_cluster_migrate.html Copyi..
1. 관련 라이브러리 설치 pip install awscli pip install boto3 aws cli는 aws인증을 위해 사용하는 라이브러리이고, boto3는 S3에 접근해서 조작할 수 있다. 2. 터미널 환경에서 aws configure 해당 부분은 aws에서 IAM 설정으로 S3를 사용하기 위한 사용자를 만들면 AWS Access key와 Secret Access Key를 제공한다. 3. boto3로 S3에 접근하기 import boto3 s3 = boto3.client('s3') try: s3.upload_file("test_input.txt", "Your-bucket-name", "test_input.txt") except Exception as err: print("input error",..