'분류 전체보기' 카테고리의 글 목록 (75 Page)

[Spark] 스파크 스탠드얼론 워커의 코어와 메모리 설정하는 방법 (stand-alone)

2022.03.30

jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 설정 파일 : spark-env.sh 위치 : spark-env.sh 파일은 보통 스파크 설치 파일의 conf 폴더 안에 있다. 예를 들어서 내가 /home 에 스파크를 설치했으면 /home/spark/conf/spark-env.sh 가 있을 것이다 export SPARK_WORKER_CORES=4 export SPARK_WORKER_MEMORY=8g 위와 같이 설정하면 워커당 4개의 코어와 8기가의 메모리를 갖는다. export SPARK_WORKER_CORES=3 export SPARK_WORKER_MEMORY=6g 위와 같이 설정하면 워커당 3개의 코어와 6기가의 메모리를 갖는다. ex..

Data Engineering/Spark

[Spark] 스파크 스탠드얼론 워커 갯수 설정하는 방법 (stand-alone)

2022.03.30

jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 설정 파일 : spark-env.sh 위치 : spark-env.sh 파일은 보통 스파크 설치 파일의 conf 폴더 안에 있다. 예를 들어서 내가 /home 에 스파크를 설치했으면 /home/spark/conf/spark-env.sh 가 있을 것이다 export SPARK_WORKER_INSTANCES=3 위와 같이 설정하면 워커는 3개가 된다 export SPARK_WORKER_INSTANCES=2 위와 같이 설정하면 워커는 2개가 된다 export SPARK_WORKER_INSTANCES=1 위와 같이 설정하면 워커는 1개가 된다 export SPARK_WORKER_INSTANCES=3 ..

Data Engineering/Spark

[Hadoop] 하둡 core-site.xml 설정파일 확인하기

2022.03.25

/home 에 hadoop 을 설치했다고 가정한다. /home/hadoop/etc/hadoop/core-site.xml - 클러스터 내의 네임노드에서 실행되는 하둡 데몬에 관한 설정 -로그파일, 네트워크 튜닝, I/O튜닝, 파일 시스템 튜닝, 압축 등 하부 시스템 설정 파일 - HDFS(hdfs-site.xml)와 맵리듀스(mapred-site.xml)에서 공통적으로 사용할 환경정보 설정 -만약 core-site.xml 이 없을 경우 core-default.xml 에 있는 기본값을 사용한다. fs.default.name hdfs://마스터호스트:9000 hadoop.tmp.dir /home/hadoop/tmp fs.defaultFS - hdfs의 기본 이름 - URI 형태 - 데이터 노드는 여러 작업..

Data Engineering/Spark

[Spark] 스파크 실행시 설정값 우선순위

2022.03.25

1순위 : 코드상 설정값 2순위 : spark-shell, spark-submit 실행시 파라미터로 넣는 설정값 3순위 : spark-defaults.conf 의 설정값

Data Engineering/Spark

[Zookeeper] 주키퍼 설정파일 zoo.cfg 정리

2022.03.25

tickTime=3000 주키퍼가 사용하는 시간의 기본 측정 단위 (ms, 밀리초) 3000이면 3초로 해석됨 initLimit=10 주키퍼 클러스터 구성했을 때, 팔로워가 리더와 초기에 연결을 시도할 때 갖는 tick의 수 tick 제한 횟수를 넘으면 timeout이 발생하고, 여기에서 initLimit=10 으로 구성하면 30초로 설정하는 의미 syncLimit=3 주키퍼 클러스터 구성했을 때, 팔로워가 리더가 연결하고 나서 팔로워와 리더가 동기화 하는 시간에 대한 타임아웃 tick 수 (주키퍼에 저장된 데이터가 많으면 높아야 함) 여기에서 syncLimit=3 으로 구성하면 9초로 설정됨 dataDir=/home/zookeeper 주키퍼의 스냅샷, 트랜잭션 로그, 상태를 저장하고 업데이트하는 디렉토..

Data Engineering/Spark

[Spark] Spark on Yarn Cluster 어플리케이션 실행 전후 각 서버별 jps 상태 확인하기

2022.03.20

컨테이너 1 : NameNode, NodeManager, ResourceManager, JobHistoryServer + MasterNode(Spark) 컨테이너 2 : SecondaryNameNode, WorkerNode + WorkerNode(Spark) 컨테이너 3 : WorkerNode + WorkerNode(Spark) 컨테이너 4 : WorkerNode + WorkerNode(Spark) 컨테이너 5 : WorkerNode + WorkerNode(Spark) 컨테이너 1 : NameNode, NodeManager, ResourceManager, JobHistoryServer + MasterNode(Spark) 컨테이너 2 : SecondaryNameNode, W..

Data Engineering/Spark

[Spark] Spark on Yarn Cluster 실행시 각 컨테이너별 jps 상태 확인하기

2022.03.20

컨테이너 1 : NameNode, NodeManager, ResourceManager, JobHistoryServer + MasterNode(Spark) 컨테이너 2 : SecondaryNameNode, WorkerNode + WorkerNode(Spark) 컨테이너 3 : WorkerNode + WorkerNode(Spark) 컨테이너 4 : WorkerNode + WorkerNode(Spark) 컨테이너 5 : WorkerNode + WorkerNode(Spark) 컨테이너 1 : NameNode, NodeManager, ResourceManager, HistoryManager + MasterNode(Spark) 1264 HistoryServer 1152 Master 737 ResourceManage..

Data Engineering/Spark

[Spark] 로컬에서 제플린 테스트시 사용하는 dockerfile

2022.03.20

Dockerfile FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 입력요청 무시 ENV DEBIAN_FRONTEND=noninteractive # 가끔 프록시 엇갈리는 문제 # RUN set -x \ # && { \ # echo 'Acquire::http::Pipeline-Depth 0;'; \ # echo 'Acquire::http::No-Cache true;'; \ # echo 'Acquire::BrokenProxy true;'; \ # } > /etc/apt/apt.conf.d/99fixbadproxy # apt 미러서버 미국(default) -> 한국 변경 RUN sed -i 's@archive.ubuntu.com@kr.archive...

Data Engineering/Spark

[Spark] 로컬에서 스파크 클러스터 테스트시 사용하는 dockerfile

2022.03.20

Dockerfile FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 입력요청 무시 ENV DEBIAN_FRONTEND=noninteractive # 가끔 프록시 엇갈리는 문제 # RUN set -x \ # && { \ # echo 'Acquire::http::Pipeline-Depth 0;'; \ # echo 'Acquire::http::No-Cache true;'; \ # echo 'Acquire::BrokenProxy true;'; \ # } > /etc/apt/apt.conf.d/99fixbadproxy # apt 미러서버 미국(default) -> 한국 변경 RUN sed -i 's@archive.ubuntu.com@kr.archive...

Data Engineering/Spark

[Spark] 제플린에서 spark context 옵션에 대해 살펴보기

2022.03.19

스파크와 제플린을 실행시킨다. 스파크는 스탠드얼론으로 실행됐고, 마스터노드 1개, 워커노드 3개로 구성돼 있다. 워커노드는 각각 3개의 코어와 5기가의 메모리를 갖고있다. 스파크 ui 제플린 먼저 실행이 잘 되는지 확인해보자 sc 종료 sc.stop 기본 옵션을 살펴보자 import org.apache.spark.{SparkConf, SparkContext} val conf = new SparkConf().setAppName("Park-Gyeong-Tae") .setMaster("spark://spark-master:7077") val sc = new SparkContext(conf) println("APP Name : " + sc.appName); println("Master : " + sc.maste..

데이터 엔지니어

[Spark] 스파크 스탠드얼론 워커의 코어와 메모리 설정하는 방법 (stand-alone)

[Spark] 스파크 스탠드얼론 워커 갯수 설정하는 방법 (stand-alone)

[Hadoop] 하둡 core-site.xml 설정파일 확인하기

[Spark] 스파크 실행시 설정값 우선순위

[Zookeeper] 주키퍼 설정파일 zoo.cfg 정리

[Spark] Spark on Yarn Cluster 어플리케이션 실행 전후 각 서버별 jps 상태 확인하기

[Spark] Spark on Yarn Cluster 실행시 각 컨테이너별 jps 상태 확인하기

[Spark] 로컬에서 제플린 테스트시 사용하는 dockerfile

[Spark] 로컬에서 스파크 클러스터 테스트시 사용하는 dockerfile

[Spark] 제플린에서 spark context 옵션에 대해 살펴보기

티스토리툴바