사용한 파일은 아래 깃허브로 구성을 했다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/2_spark-cluster-zeppelin GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 먼저 파일 구조를 보자 dockerfile FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 입력요청 무시 ENV DEBIAN_FRONTEND=noninteractive # apt 미러서버 미국(default) -> 한국 변경 RUN sed ..
사용 중인 스파크 설정 관련 깃허브는 다음과 같다 https://github.com/ParkGyeongTae/spark-pgt/tree/main/1_spark-cluster GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 마스터1, 슬레이브3의 스탠드 얼론 클러스터를 운영하고있다. docker-compose.yml 파일은 다음과 같다. version: '2.1' services: spark-master: hostname: spark-master container_name: spark-master image: spark-clus..
나는 다른 작업을 하고 있는데 계속 내 커맨드창에 (base) 가 있는 경우가 있다. 이럴 때에는 아나콘다 가상환경을 비활성화 시켜줘야되는데, 명령어는 다음과 같다. conda deactivate 다른 작업 중 아나콘다 가상환경을 다시 사용하려면 먼저 리스트를 확인하고 activate 명령어로 다시 활성화시킬 수 있다. 먼저 아나콘다 가상환경 리스트를 확인해보자 그리고 virenv 라는 이름을 가진 가상환경을 실행해보자 conda activate virenv
아나콘다에서 가상환경을 활성화할 때 다음과 같은 에러가 발생할 수 있다. conda activate my_env 이건 내가 my_env 라고하는 가상환경이 없는데, 그 가상환경을 활성화 시키려고해서 발생하는 알림이다. 이럴 때에는 다음 명령어로 아나콘다의 가상환경을 확인 후 이름으로 이용할 수 있다. conda env list conda activate test
이번 테스트에서 작성중인 깃허브는 다음과 같다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/1_spark-cluster GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 다른 블로그들을 보면 spark-shell 또는 pyspark 또는 spark-submit 명령어를 사용시 --num-executors 옵션을 주면 익스큐터의 갯수를 설정할 수 있다고들 한다. 하지만 나는 이 방식이 적용되지 않았다.... 이유는 잘 모르겠으나, 해결방법은 찾은 것 같다. 왜 다른 블로그에서는 ..
모든 설정파일은 아래 깃허브에 저장시켜놓았다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/1_spark-cluster GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 파일의 형태는 다음과 같다. 스파크를 한두번 설치해보면 어떤파일이 무엇인지 단번에 알 수 있을 것 같다... 먼저 도커파일을 살펴보자 FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 입력요청 무시 ENV DEBIAN_FRONTEND=noninteract..
스파크를 사용중 다음과 같은 에러가 발생 org.apache.spark.deploy.master.Master running as process 580. Stop it first. 이미 스파크 마스터가 실행되고 있어서, 만약 다시 실행시키려면 저 프로세스를 죽이고 다시 실행해야한다. 프로세스를 확인해보자 ps -ef 실제로 580 에서 실행중이고 해당 프로세스를 죽이고 다시 실행시켜보자 kill 580 ps -ef /home/spark/sbin/start-master.sh 다시 정상적으로 실행되는 것을 확인할 수 있다
./spark/sbin/start-worker.sh --help root@spark-master:/home# ./spark/sbin/start-worker.sh --help Usage: ./sbin/start-worker.sh [options] 22/04/13 04:27:38 INFO SignalUtils: Registering signal handler for TERM 22/04/13 04:27:38 INFO SignalUtils: Registering signal handler for HUP 22/04/13 04:27:38 INFO SignalUtils: Registering signal handler for INT Master must be a URL of the form spark://hostna..
./spark/sbin/start-master.sh --help root@spark-master:/home# ./spark/sbin/start-master.sh --help Usage: ./sbin/start-master.sh [options] 22/04/13 04:28:38 INFO SignalUtils: Registering signal handler for TERM 22/04/13 04:28:38 INFO SignalUtils: Registering signal handler for HUP 22/04/13 04:28:38 INFO SignalUtils: Registering signal handler for INT Options: -i HOST, --ip HOST Hostname to listen ..