'Data Engineering' 카테고리의 글 목록 (17 Page)

[Spark] Spark Cluster 간단하게 만들어보기 (standalone)

2022.04.13

모든 설정파일은 아래 깃허브에 저장시켜놓았다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/1_spark-cluster GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 파일의 형태는 다음과 같다. 스파크를 한두번 설치해보면 어떤파일이 무엇인지 단번에 알 수 있을 것 같다... 먼저 도커파일을 살펴보자 FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 입력요청 무시 ENV DEBIAN_FRONTEND=noninteract..

Data Engineering/Spark

[Spark] org.apache.spark.deploy.master.Master running as process 580. Stop it first.

2022.04.13

스파크를 사용중 다음과 같은 에러가 발생 org.apache.spark.deploy.master.Master running as process 580. Stop it first. 이미 스파크 마스터가 실행되고 있어서, 만약 다시 실행시키려면 저 프로세스를 죽이고 다시 실행해야한다. 프로세스를 확인해보자 ps -ef 실제로 580 에서 실행중이고 해당 프로세스를 죽이고 다시 실행시켜보자 kill 580 ps -ef /home/spark/sbin/start-master.sh 다시 정상적으로 실행되는 것을 확인할 수 있다

Data Engineering/Spark

[Spark] 스파크 마스터 최초 실행시 얻을 수 있는 로그 내용

2022.04.13

pwd ls cat spark--org.apache.spark.deploy.master.Master-1-spark-master.out root@spark-master:/home/spark/logs# cat spark--org.apache.spark.deploy.master.Master-1-spark-master.out Spark Command: /usr/lib/jvm/java-8-openjdk-amd64/bin/java -cp /home/spark/conf/:/home/spark/jars/* -Xmx1g org.apache.spark.deploy.master.Master --host spark-master --port 17077 --webui-port 18080 =======================..

Data Engineering/Spark

[Spark] ./spark/sbin/start-worker.sh 실행 옵션 확인하는 방법

2022.04.13

./spark/sbin/start-worker.sh --help root@spark-master:/home# ./spark/sbin/start-worker.sh --help Usage: ./sbin/start-worker.sh [options] 22/04/13 04:27:38 INFO SignalUtils: Registering signal handler for TERM 22/04/13 04:27:38 INFO SignalUtils: Registering signal handler for HUP 22/04/13 04:27:38 INFO SignalUtils: Registering signal handler for INT Master must be a URL of the form spark://hostna..

Data Engineering/Spark

[Spark] ./spark/sbin/start-master.sh 실행 옵션 확인

2022.04.13

./spark/sbin/start-master.sh --help root@spark-master:/home# ./spark/sbin/start-master.sh --help Usage: ./sbin/start-master.sh [options] 22/04/13 04:28:38 INFO SignalUtils: Registering signal handler for TERM 22/04/13 04:28:38 INFO SignalUtils: Registering signal handler for HUP 22/04/13 04:28:38 INFO SignalUtils: Registering signal handler for INT Options: -i HOST, --ip HOST Hostname to listen ..

Data Engineering/Spark

[Spark] 도커 컨테이너의 열린 포트 확인하는 방법

2022.04.13

먼저 패키지를 설치한다 apt-get install net-tools -y 다음 명령어로 쉽게 확인할 수 있다. netstat -tnlp | grep "LISTEN" 해당 컨테이너에서는 8080포트와 7077 포트를 사용중인데, 8080포트는 스파크 웹 UI 포트가 열린 것을 확인할 수 있고, 7077포트는 스파크 마스터 포트가 열린 것을 확인할 수 있다.

Data Engineering/Spark

[Spark] 디폴트 설정으로 spark master 실행시 웹페이지

2022.04.13

아무런 설정을 하지 않고 단순히 우분투 18.04에 spark 실행에 필요한 jdk, spark 추가로 python 만 설치하고 스파크 마스터를 실행시켰을 때를 확인해보자 spark-env.sh 는 스파크 설정 파일인데 해당 파일은 스파크 설치 위치 (나는 /home에 설치를 했다.) /home/spark/conf/spark-env.sh.templete 파일이 있는데, 뒤에 .templete 만 지우고 스파크 마스터를 실행시켜보자. 작업중인 깃허브는 다음과 같다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/0_spark 도커파일은 다음과 같다. FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 ..

Data Engineering/Spark

[spark] bash: javac: command not found

2022.04.10

bash: javac: command not found 위와 같은 에러가 나오는 경우가 있다. 이는 두가지로 의심할 수 있다. 하나는 jdk를 설치를 안했을 경우이고, 또 하나는 jdk를 설치했으나 파일과 같은 형식으로 설치하면 환경변수가 설정되지않아 환경변수를 설정해줘야 하는 경우이다.

Data Engineering/Spark

[spark] 스파크 설치 전 jdk 설치하기

2022.04.10

스파크는 jdk 에서 실행된다. 스파크를 설치하기 전 jdk를 선행적으로 설치해줘야한다. jdk 설치 여부는 아래의 명령어로 확인할 수 있다. javac -verison jdk를 설치해보자 먼저 패키지 업데이트 먼저 실행한다. apt update apt 를 이용해서 jdk 8버전을 설치하자 apt install openjdk-8-jdk -y 잘 설치 됐는지 확인해보자 javac -version

Data Engineering/Spark

[Spark] 애플리케이션 실행 전후 jps, cpu, memory 변화 확인하기

2022.03.30

jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 스파크 클러스터 실행 상태 확인 jps ps -eo user,pid,ppid,rss,size,vsize,pmem,pcpu,time,cmd --sort -rss | head -n 100 spark web ui 이제 제플린 노트북을 실행시켜보자 그리고 간단한 실행을해보자 sc sc.parallelized(1 to 100).count 애플리케이션이 실행 됐는지 스파크 웹 ui를 확인 실행이 잘 됐고, 익스큐터가 어떻게 구성됐는지 확인해보자 제플린을 사용하는 애플리케이션을 총 8코어, 8기가를 사용하는데 익스큐터도 8개를 사용해서 익스큐터당 1코어, 1기가씩 사용하는 것으로 확인된다. 이제 애플리케..

티스토리툴바