Data Engineering

Data Engineering/Spark

[Spark] ./spark/sbin/start-worker.sh 실행 옵션 확인하는 방법

./spark/sbin/start-worker.sh --help root@spark-master:/home# ./spark/sbin/start-worker.sh --help Usage: ./sbin/start-worker.sh [options] 22/04/13 04:27:38 INFO SignalUtils: Registering signal handler for TERM 22/04/13 04:27:38 INFO SignalUtils: Registering signal handler for HUP 22/04/13 04:27:38 INFO SignalUtils: Registering signal handler for INT Master must be a URL of the form spark://hostna..

Data Engineering/Spark

[Spark] ./spark/sbin/start-master.sh 실행 옵션 확인

./spark/sbin/start-master.sh --help root@spark-master:/home# ./spark/sbin/start-master.sh --help Usage: ./sbin/start-master.sh [options] 22/04/13 04:28:38 INFO SignalUtils: Registering signal handler for TERM 22/04/13 04:28:38 INFO SignalUtils: Registering signal handler for HUP 22/04/13 04:28:38 INFO SignalUtils: Registering signal handler for INT Options: -i HOST, --ip HOST Hostname to listen ..

Data Engineering/Spark

[Spark] 도커 컨테이너의 열린 포트 확인하는 방법

먼저 패키지를 설치한다 apt-get install net-tools -y 다음 명령어로 쉽게 확인할 수 있다. netstat -tnlp | grep "LISTEN" 해당 컨테이너에서는 8080포트와 7077 포트를 사용중인데, 8080포트는 스파크 웹 UI 포트가 열린 것을 확인할 수 있고, 7077포트는 스파크 마스터 포트가 열린 것을 확인할 수 있다.

Data Engineering/Spark

[Spark] 디폴트 설정으로 spark master 실행시 웹페이지

아무런 설정을 하지 않고 단순히 우분투 18.04에 spark 실행에 필요한 jdk, spark 추가로 python 만 설치하고 스파크 마스터를 실행시켰을 때를 확인해보자 spark-env.sh 는 스파크 설정 파일인데 해당 파일은 스파크 설치 위치 (나는 /home에 설치를 했다.) /home/spark/conf/spark-env.sh.templete 파일이 있는데, 뒤에 .templete 만 지우고 스파크 마스터를 실행시켜보자. 작업중인 깃허브는 다음과 같다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/0_spark 도커파일은 다음과 같다. FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 ..

Data Engineering/Spark

[spark] bash: javac: command not found

bash: javac: command not found 위와 같은 에러가 나오는 경우가 있다. 이는 두가지로 의심할 수 있다. 하나는 jdk를 설치를 안했을 경우이고, 또 하나는 jdk를 설치했으나 파일과 같은 형식으로 설치하면 환경변수가 설정되지않아 환경변수를 설정해줘야 하는 경우이다.

Data Engineering/Spark

[spark] 스파크 설치 전 jdk 설치하기

스파크는 jdk 에서 실행된다. 스파크를 설치하기 전 jdk를 선행적으로 설치해줘야한다. jdk 설치 여부는 아래의 명령어로 확인할 수 있다. javac -verison jdk를 설치해보자 먼저 패키지 업데이트 먼저 실행한다. apt update apt 를 이용해서 jdk 8버전을 설치하자 apt install openjdk-8-jdk -y 잘 설치 됐는지 확인해보자 javac -version

Data Engineering/Spark

[Spark] 애플리케이션 실행 전후 jps, cpu, memory 변화 확인하기

jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 스파크 클러스터 실행 상태 확인 jps ps -eo user,pid,ppid,rss,size,vsize,pmem,pcpu,time,cmd --sort -rss | head -n 100 spark web ui 이제 제플린 노트북을 실행시켜보자 그리고 간단한 실행을해보자 sc sc.parallelized(1 to 100).count 애플리케이션이 실행 됐는지 스파크 웹 ui를 확인 실행이 잘 됐고, 익스큐터가 어떻게 구성됐는지 확인해보자 제플린을 사용하는 애플리케이션을 총 8코어, 8기가를 사용하는데 익스큐터도 8개를 사용해서 익스큐터당 1코어, 1기가씩 사용하는 것으로 확인된다. 이제 애플리케..

Data Engineering/Spark

[Spark] Apache Spark Stand-Alone CPU, 메모리 사용률 확인하기

jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 스파크 처음 실행시 상태 ps -eo user,pid,ppid,rss,size,vsize,pmem,pcpu,time,cmd --sort -rss | head -n 100 cpu 점유율이 점점 떨어진다.... cpu 점유율이 또 떨어진다 어디까지 떨어질까 아직 이르다 더 0.7 ..?

Data Engineering/Spark

[Spark] Apache Spark Stand-Alone 실행, 종료하는 방법

jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 실행 전 jps 확인 실행 전 ps -ef 확인 실행 전 netstat -tnlp | grep "LISTEN" 확인 스파크 마스터 실행 명령어 /home/spark/sbin/start-master.sh /(본인의 스파크 설치 경로)/sbin/start-master.sh jps ps -ef netstat -tnlp | grep "LISTEN" 스파크 마스터 실행 후 스파크 워커 실행 /home/spark/sbin/start-slave.sh spark://spark-cluster:17077 /(본인이 스파크 설치 경로)/sbin/start-slave.sh spark://(본인 스파크 호스트이름)..

Data Engineering/Spark

[Spark] 스파크 메인 웹 UI (스파크 마스터) 포트 변경하는 방법

jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 설정 파일 : spark-env.sh 위치 : spark-env.sh 파일은 보통 스파크 설치 파일의 conf 폴더 안에 있다. 예를 들어서 내가 /home 에 스파크를 설치했으면 /home/spark/conf/spark-env.sh 가 있을 것이다 export SPARK_MASTER_WEBUI_PORT=18080 포트 번호가 18080으로 변경된다. export SPARK_MASTER_WEBUI_PORT=18888 포트 번호가 18888로 변경된다 export SPARK_MASTER_WEBUI_PORT=28888 포트 번호가 28888로 변경된다

박경태
'Data Engineering' 카테고리의 글 목록 (19 Page)