Data Engineering

Data Engineering/Spark

[Spark] Apache Spark Stand-Alone CPU, 메모리 사용률 확인하기

jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 스파크 처음 실행시 상태 ps -eo user,pid,ppid,rss,size,vsize,pmem,pcpu,time,cmd --sort -rss | head -n 100 cpu 점유율이 점점 떨어진다.... cpu 점유율이 또 떨어진다 어디까지 떨어질까 아직 이르다 더 0.7 ..?

Data Engineering/Spark

[Spark] Apache Spark Stand-Alone 실행, 종료하는 방법

jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 실행 전 jps 확인 실행 전 ps -ef 확인 실행 전 netstat -tnlp | grep "LISTEN" 확인 스파크 마스터 실행 명령어 /home/spark/sbin/start-master.sh /(본인의 스파크 설치 경로)/sbin/start-master.sh jps ps -ef netstat -tnlp | grep "LISTEN" 스파크 마스터 실행 후 스파크 워커 실행 /home/spark/sbin/start-slave.sh spark://spark-cluster:17077 /(본인이 스파크 설치 경로)/sbin/start-slave.sh spark://(본인 스파크 호스트이름)..

Data Engineering/Spark

[Spark] 스파크 메인 웹 UI (스파크 마스터) 포트 변경하는 방법

jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 설정 파일 : spark-env.sh 위치 : spark-env.sh 파일은 보통 스파크 설치 파일의 conf 폴더 안에 있다. 예를 들어서 내가 /home 에 스파크를 설치했으면 /home/spark/conf/spark-env.sh 가 있을 것이다 export SPARK_MASTER_WEBUI_PORT=18080 포트 번호가 18080으로 변경된다. export SPARK_MASTER_WEBUI_PORT=18888 포트 번호가 18888로 변경된다 export SPARK_MASTER_WEBUI_PORT=28888 포트 번호가 28888로 변경된다

Data Engineering/Spark

[Spark] 스파크 스탠드얼론 워커의 코어와 메모리 설정하는 방법 (stand-alone)

jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 설정 파일 : spark-env.sh 위치 : spark-env.sh 파일은 보통 스파크 설치 파일의 conf 폴더 안에 있다. 예를 들어서 내가 /home 에 스파크를 설치했으면 /home/spark/conf/spark-env.sh 가 있을 것이다 export SPARK_WORKER_CORES=4 export SPARK_WORKER_MEMORY=8g 위와 같이 설정하면 워커당 4개의 코어와 8기가의 메모리를 갖는다. export SPARK_WORKER_CORES=3 export SPARK_WORKER_MEMORY=6g 위와 같이 설정하면 워커당 3개의 코어와 6기가의 메모리를 갖는다. ex..

Data Engineering/Spark

[Spark] 스파크 스탠드얼론 워커 갯수 설정하는 방법 (stand-alone)

jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 설정 파일 : spark-env.sh 위치 : spark-env.sh 파일은 보통 스파크 설치 파일의 conf 폴더 안에 있다. 예를 들어서 내가 /home 에 스파크를 설치했으면 /home/spark/conf/spark-env.sh 가 있을 것이다 export SPARK_WORKER_INSTANCES=3 위와 같이 설정하면 워커는 3개가 된다 export SPARK_WORKER_INSTANCES=2 위와 같이 설정하면 워커는 2개가 된다 export SPARK_WORKER_INSTANCES=1 위와 같이 설정하면 워커는 1개가 된다 export SPARK_WORKER_INSTANCES=3 ..

Data Engineering/Spark

[Hadoop] 하둡 core-site.xml 설정파일 확인하기

/home 에 hadoop 을 설치했다고 가정한다. /home/hadoop/etc/hadoop/core-site.xml - 클러스터 내의 네임노드에서 실행되는 하둡 데몬에 관한 설정 -로그파일, 네트워크 튜닝, I/O튜닝, 파일 시스템 튜닝, 압축 등 하부 시스템 설정 파일 - HDFS(hdfs-site.xml)와 맵리듀스(mapred-site.xml)에서 공통적으로 사용할 환경정보 설정 -만약 core-site.xml 이 없을 경우 core-default.xml 에 있는 기본값을 사용한다. fs.default.name hdfs://마스터호스트:9000 hadoop.tmp.dir /home/hadoop/tmp fs.defaultFS - hdfs의 기본 이름 - URI 형태 - 데이터 노드는 여러 작업..

Data Engineering/Spark

[Spark] 스파크 실행시 설정값 우선순위

1순위 : 코드상 설정값 2순위 : spark-shell, spark-submit 실행시 파라미터로 넣는 설정값 3순위 : spark-defaults.conf 의 설정값

Data Engineering/Spark

[Zookeeper] 주키퍼 설정파일 zoo.cfg 정리

tickTime=3000 주키퍼가 사용하는 시간의 기본 측정 단위 (ms, 밀리초) 3000이면 3초로 해석됨 initLimit=10 주키퍼 클러스터 구성했을 때, 팔로워가 리더와 초기에 연결을 시도할 때 갖는 tick의 수 tick 제한 횟수를 넘으면 timeout이 발생하고, 여기에서 initLimit=10 으로 구성하면 30초로 설정하는 의미 syncLimit=3 주키퍼 클러스터 구성했을 때, 팔로워가 리더가 연결하고 나서 팔로워와 리더가 동기화 하는 시간에 대한 타임아웃 tick 수 (주키퍼에 저장된 데이터가 많으면 높아야 함) 여기에서 syncLimit=3 으로 구성하면 9초로 설정됨 dataDir=/home/zookeeper 주키퍼의 스냅샷, 트랜잭션 로그, 상태를 저장하고 업데이트하는 디렉토..

Data Engineering/Spark

[Spark] Spark on Yarn Cluster 어플리케이션 실행 전후 각 서버별 jps 상태 확인하기

컨테이너 1 : NameNode, NodeManager, ResourceManager, JobHistoryServer + MasterNode(Spark) 컨테이너 2 : SecondaryNameNode, WorkerNode + WorkerNode(Spark) 컨테이너 3 : WorkerNode + WorkerNode(Spark) 컨테이너 4 : WorkerNode + WorkerNode(Spark) 컨테이너 5 : WorkerNode + WorkerNode(Spark) 컨테이너 1 : NameNode, NodeManager, ResourceManager, JobHistoryServer + MasterNode(Spark) 컨테이너 2 : SecondaryNameNode, W..

Data Engineering/Spark

[Spark] Spark on Yarn Cluster 실행시 각 컨테이너별 jps 상태 확인하기

컨테이너 1 : NameNode, NodeManager, ResourceManager, JobHistoryServer + MasterNode(Spark) 컨테이너 2 : SecondaryNameNode, WorkerNode + WorkerNode(Spark) 컨테이너 3 : WorkerNode + WorkerNode(Spark) 컨테이너 4 : WorkerNode + WorkerNode(Spark) 컨테이너 5 : WorkerNode + WorkerNode(Spark) 컨테이너 1 : NameNode, NodeManager, ResourceManager, HistoryManager + MasterNode(Spark) 1264 HistoryServer 1152 Master 737 ResourceManage..

박경태
'Data Engineering' 카테고리의 글 목록 (18 Page)