데이터 엔지니어

Data Engineering/Spark

[Spark] 스파크 스탠드얼론 워커의 코어와 메모리 설정하는 방법 (stand-alone)

jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 설정 파일 : spark-env.sh 위치 : spark-env.sh 파일은 보통 스파크 설치 파일의 conf 폴더 안에 있다. 예를 들어서 내가 /home 에 스파크를 설치했으면 /home/spark/conf/spark-env.sh 가 있을 것이다 export SPARK_WORKER_CORES=4 export SPARK_WORKER_MEMORY=8g 위와 같이 설정하면 워커당 4개의 코어와 8기가의 메모리를 갖는다. export SPARK_WORKER_CORES=3 export SPARK_WORKER_MEMORY=6g 위와 같이 설정하면 워커당 3개의 코어와 6기가의 메모리를 갖는다. ex..

Data Engineering/Spark

[Spark] 스파크 스탠드얼론 워커 갯수 설정하는 방법 (stand-alone)

jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 설정 파일 : spark-env.sh 위치 : spark-env.sh 파일은 보통 스파크 설치 파일의 conf 폴더 안에 있다. 예를 들어서 내가 /home 에 스파크를 설치했으면 /home/spark/conf/spark-env.sh 가 있을 것이다 export SPARK_WORKER_INSTANCES=3 위와 같이 설정하면 워커는 3개가 된다 export SPARK_WORKER_INSTANCES=2 위와 같이 설정하면 워커는 2개가 된다 export SPARK_WORKER_INSTANCES=1 위와 같이 설정하면 워커는 1개가 된다 export SPARK_WORKER_INSTANCES=3 ..

Data Engineering/Spark

[Hadoop] 하둡 core-site.xml 설정파일 확인하기

/home 에 hadoop 을 설치했다고 가정한다. /home/hadoop/etc/hadoop/core-site.xml - 클러스터 내의 네임노드에서 실행되는 하둡 데몬에 관한 설정 -로그파일, 네트워크 튜닝, I/O튜닝, 파일 시스템 튜닝, 압축 등 하부 시스템 설정 파일 - HDFS(hdfs-site.xml)와 맵리듀스(mapred-site.xml)에서 공통적으로 사용할 환경정보 설정 -만약 core-site.xml 이 없을 경우 core-default.xml 에 있는 기본값을 사용한다. fs.default.name hdfs://마스터호스트:9000 hadoop.tmp.dir /home/hadoop/tmp fs.defaultFS - hdfs의 기본 이름 - URI 형태 - 데이터 노드는 여러 작업..

Data Engineering/Spark

[Spark] 스파크 실행시 설정값 우선순위

1순위 : 코드상 설정값 2순위 : spark-shell, spark-submit 실행시 파라미터로 넣는 설정값 3순위 : spark-defaults.conf 의 설정값

Data Engineering/Spark

[Zookeeper] 주키퍼 설정파일 zoo.cfg 정리

tickTime=3000 주키퍼가 사용하는 시간의 기본 측정 단위 (ms, 밀리초) 3000이면 3초로 해석됨 initLimit=10 주키퍼 클러스터 구성했을 때, 팔로워가 리더와 초기에 연결을 시도할 때 갖는 tick의 수 tick 제한 횟수를 넘으면 timeout이 발생하고, 여기에서 initLimit=10 으로 구성하면 30초로 설정하는 의미 syncLimit=3 주키퍼 클러스터 구성했을 때, 팔로워가 리더가 연결하고 나서 팔로워와 리더가 동기화 하는 시간에 대한 타임아웃 tick 수 (주키퍼에 저장된 데이터가 많으면 높아야 함) 여기에서 syncLimit=3 으로 구성하면 9초로 설정됨 dataDir=/home/zookeeper 주키퍼의 스냅샷, 트랜잭션 로그, 상태를 저장하고 업데이트하는 디렉토..

Data Engineering/Spark

[Spark] Spark on Yarn Cluster 어플리케이션 실행 전후 각 서버별 jps 상태 확인하기

컨테이너 1 : NameNode, NodeManager, ResourceManager, JobHistoryServer + MasterNode(Spark) 컨테이너 2 : SecondaryNameNode, WorkerNode + WorkerNode(Spark) 컨테이너 3 : WorkerNode + WorkerNode(Spark) 컨테이너 4 : WorkerNode + WorkerNode(Spark) 컨테이너 5 : WorkerNode + WorkerNode(Spark) 컨테이너 1 : NameNode, NodeManager, ResourceManager, JobHistoryServer + MasterNode(Spark) 컨테이너 2 : SecondaryNameNode, W..

Data Engineering/Spark

[Spark] Spark on Yarn Cluster 실행시 각 컨테이너별 jps 상태 확인하기

컨테이너 1 : NameNode, NodeManager, ResourceManager, JobHistoryServer + MasterNode(Spark) 컨테이너 2 : SecondaryNameNode, WorkerNode + WorkerNode(Spark) 컨테이너 3 : WorkerNode + WorkerNode(Spark) 컨테이너 4 : WorkerNode + WorkerNode(Spark) 컨테이너 5 : WorkerNode + WorkerNode(Spark) 컨테이너 1 : NameNode, NodeManager, ResourceManager, HistoryManager + MasterNode(Spark) 1264 HistoryServer 1152 Master 737 ResourceManage..

Data Engineering/Spark

[Spark] 로컬에서 제플린 테스트시 사용하는 dockerfile

Dockerfile FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 입력요청 무시 ENV DEBIAN_FRONTEND=noninteractive # 가끔 프록시 엇갈리는 문제 # RUN set -x \ # && { \ # echo 'Acquire::http::Pipeline-Depth 0;'; \ # echo 'Acquire::http::No-Cache true;'; \ # echo 'Acquire::BrokenProxy true;'; \ # } > /etc/apt/apt.conf.d/99fixbadproxy # apt 미러서버 미국(default) -> 한국 변경 RUN sed -i 's@archive.ubuntu.com@kr.archive...

Data Engineering/Spark

[Spark] 로컬에서 스파크 클러스터 테스트시 사용하는 dockerfile

Dockerfile FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 입력요청 무시 ENV DEBIAN_FRONTEND=noninteractive # 가끔 프록시 엇갈리는 문제 # RUN set -x \ # && { \ # echo 'Acquire::http::Pipeline-Depth 0;'; \ # echo 'Acquire::http::No-Cache true;'; \ # echo 'Acquire::BrokenProxy true;'; \ # } > /etc/apt/apt.conf.d/99fixbadproxy # apt 미러서버 미국(default) -> 한국 변경 RUN sed -i 's@archive.ubuntu.com@kr.archive...

Data Engineering/Spark

[Spark] 제플린에서 spark context 옵션에 대해 살펴보기

스파크와 제플린을 실행시킨다. 스파크는 스탠드얼론으로 실행됐고, 마스터노드 1개, 워커노드 3개로 구성돼 있다. 워커노드는 각각 3개의 코어와 5기가의 메모리를 갖고있다. 스파크 ui 제플린 먼저 실행이 잘 되는지 확인해보자 sc 종료 sc.stop 기본 옵션을 살펴보자 import org.apache.spark.{SparkConf, SparkContext} val conf = new SparkConf().setAppName("Park-Gyeong-Tae") .setMaster("spark://spark-master:7077") val sc = new SparkContext(conf) println("APP Name : " + sc.appName); println("Master : " + sc.maste..

박경태
'분류 전체보기' 카테고리의 글 목록 (75 Page)