Data Engineering/Spark

Data Engineering/Spark

[Spark] Stand-Alone 실행 중 Master 컨테이너 중지 후 실행

사용 중인 스파크 설정 관련 깃허브는 다음과 같다 https://github.com/ParkGyeongTae/spark-pgt/tree/main/1_spark-cluster GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 마스터1, 슬레이브3의 스탠드 얼론 클러스터를 운영하고있다. docker-compose.yml 파일은 다음과 같다. version: '2.1' services: spark-master: hostname: spark-master container_name: spark-master image: spark-clus..

Data Engineering/Spark

[Spark] spark-shell, spark-submit 실행시 --num-executors 에 대한 확인

이번 테스트에서 작성중인 깃허브는 다음과 같다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/1_spark-cluster GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 다른 블로그들을 보면 spark-shell 또는 pyspark 또는 spark-submit 명령어를 사용시 --num-executors 옵션을 주면 익스큐터의 갯수를 설정할 수 있다고들 한다. 하지만 나는 이 방식이 적용되지 않았다.... 이유는 잘 모르겠으나, 해결방법은 찾은 것 같다. 왜 다른 블로그에서는 ..

Data Engineering/Spark

[Spark] Spark Cluster 간단하게 만들어보기 (standalone)

모든 설정파일은 아래 깃허브에 저장시켜놓았다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/1_spark-cluster GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 파일의 형태는 다음과 같다. 스파크를 한두번 설치해보면 어떤파일이 무엇인지 단번에 알 수 있을 것 같다... 먼저 도커파일을 살펴보자 FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 입력요청 무시 ENV DEBIAN_FRONTEND=noninteract..

Data Engineering/Spark

[Spark] org.apache.spark.deploy.master.Master running as process 580. Stop it first.

스파크를 사용중 다음과 같은 에러가 발생 org.apache.spark.deploy.master.Master running as process 580. Stop it first. 이미 스파크 마스터가 실행되고 있어서, 만약 다시 실행시키려면 저 프로세스를 죽이고 다시 실행해야한다. 프로세스를 확인해보자 ps -ef 실제로 580 에서 실행중이고 해당 프로세스를 죽이고 다시 실행시켜보자 kill 580 ps -ef /home/spark/sbin/start-master.sh 다시 정상적으로 실행되는 것을 확인할 수 있다

Data Engineering/Spark

[Spark] 스파크 마스터 최초 실행시 얻을 수 있는 로그 내용

pwd ls cat spark--org.apache.spark.deploy.master.Master-1-spark-master.out root@spark-master:/home/spark/logs# cat spark--org.apache.spark.deploy.master.Master-1-spark-master.out Spark Command: /usr/lib/jvm/java-8-openjdk-amd64/bin/java -cp /home/spark/conf/:/home/spark/jars/* -Xmx1g org.apache.spark.deploy.master.Master --host spark-master --port 17077 --webui-port 18080 =======================..

Data Engineering/Spark

[Spark] ./spark/sbin/start-worker.sh 실행 옵션 확인하는 방법

./spark/sbin/start-worker.sh --help root@spark-master:/home# ./spark/sbin/start-worker.sh --help Usage: ./sbin/start-worker.sh [options] 22/04/13 04:27:38 INFO SignalUtils: Registering signal handler for TERM 22/04/13 04:27:38 INFO SignalUtils: Registering signal handler for HUP 22/04/13 04:27:38 INFO SignalUtils: Registering signal handler for INT Master must be a URL of the form spark://hostna..

Data Engineering/Spark

[Spark] ./spark/sbin/start-master.sh 실행 옵션 확인

./spark/sbin/start-master.sh --help root@spark-master:/home# ./spark/sbin/start-master.sh --help Usage: ./sbin/start-master.sh [options] 22/04/13 04:28:38 INFO SignalUtils: Registering signal handler for TERM 22/04/13 04:28:38 INFO SignalUtils: Registering signal handler for HUP 22/04/13 04:28:38 INFO SignalUtils: Registering signal handler for INT Options: -i HOST, --ip HOST Hostname to listen ..

Data Engineering/Spark

[Spark] 도커 컨테이너의 열린 포트 확인하는 방법

먼저 패키지를 설치한다 apt-get install net-tools -y 다음 명령어로 쉽게 확인할 수 있다. netstat -tnlp | grep "LISTEN" 해당 컨테이너에서는 8080포트와 7077 포트를 사용중인데, 8080포트는 스파크 웹 UI 포트가 열린 것을 확인할 수 있고, 7077포트는 스파크 마스터 포트가 열린 것을 확인할 수 있다.

Data Engineering/Spark

[Spark] 디폴트 설정으로 spark master 실행시 웹페이지

아무런 설정을 하지 않고 단순히 우분투 18.04에 spark 실행에 필요한 jdk, spark 추가로 python 만 설치하고 스파크 마스터를 실행시켰을 때를 확인해보자 spark-env.sh 는 스파크 설정 파일인데 해당 파일은 스파크 설치 위치 (나는 /home에 설치를 했다.) /home/spark/conf/spark-env.sh.templete 파일이 있는데, 뒤에 .templete 만 지우고 스파크 마스터를 실행시켜보자. 작업중인 깃허브는 다음과 같다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/0_spark 도커파일은 다음과 같다. FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 ..

Data Engineering/Spark

[spark] bash: javac: command not found

bash: javac: command not found 위와 같은 에러가 나오는 경우가 있다. 이는 두가지로 의심할 수 있다. 하나는 jdk를 설치를 안했을 경우이고, 또 하나는 jdk를 설치했으나 파일과 같은 형식으로 설치하면 환경변수가 설정되지않아 환경변수를 설정해줘야 하는 경우이다.

박경태
'Data Engineering/Spark' 카테고리의 글 목록 (8 Page)