'Data Engineering' 카테고리의 글 목록 (18 Page)

[Airflow] Apache Airflow 실행하기

2022.04.18

https://github.com/ParkGyeongTae/airflow-pgt/tree/main/0_airflow GitHub - ParkGyeongTae/airflow-pgt Contribute to ParkGyeongTae/airflow-pgt development by creating an account on GitHub. github.com docker-compose.yml version: '2.1' services: airflow: hostname: airflow container_name: airflow image: airflow-pgt:0.01 restart: always stdin_open: true tty: true ports: - 28080:8080 volumes: - type: bi..

Data Engineering/Spark

[Spark] Zeppelin 사용하여 여러가지 RDD 만드는 방법 parallelize 사용

2022.04.15

https://github.com/ParkGyeongTae/spark-pgt/tree/main/2_spark-cluster-zeppelin GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 입력 %spark val data = sc.parallelize(1 to 100) data.count 출력 data: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[3] at parallelize at :26 res13: Long = 100 입력 %spark val data = sc.paral..

Data Engineering/Spark

[Spark] Zeppelin 실행시 초기 로그 확인하기

2022.04.15

사용중인 파일 모음 https://github.com/ParkGyeongTae/spark-pgt/tree/main/2_spark-cluster-zeppelin GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 로그 파일 위치 pwd ll cat zeppelin--zeppelin.out cat zeppelin--zeppelin.log root@zeppelin:/home/zeppelin/logs# cat zeppelin--zeppelin.log WARN [2022-04-15 07:03:09,425] ({main} ZeppelinCo..

Data Engineering/Spark

[Spark] Apache Zeppelin 로그 파일 위치 확인하기

2022.04.15

모든 설정파일은 아래에서 확인이 가능합니다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/2_spark-cluster-zeppelin GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 나는 제플린의 로그가 어디에 쌓이는지 확인하고 싶었다. 기본적으로 제플린의 로그는 제플린 폴더 안에 /logs 라는 곳에 들어간다. pwd ll cd logs ll pwd 로그의 위치는 zeppelin-env.sh 에서 설정할 수 있다. ZEPPELIN_LOG_DIR 만약 로깅되는 위치를 수정하고싶..

Data Engineering/Spark

[Spark] Apache Spark + Apache Zeppelin 실행하기

2022.04.15

사용한 파일은 아래 깃허브로 구성을 했다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/2_spark-cluster-zeppelin GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 먼저 파일 구조를 보자 dockerfile FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 입력요청 무시 ENV DEBIAN_FRONTEND=noninteractive # apt 미러서버 미국(default) -> 한국 변경 RUN sed ..

Data Engineering/Spark

[Spark] Stand-Alone 실행 중 Master 컨테이너 중지 후 실행

2022.04.15

사용 중인 스파크 설정 관련 깃허브는 다음과 같다 https://github.com/ParkGyeongTae/spark-pgt/tree/main/1_spark-cluster GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 마스터1, 슬레이브3의 스탠드 얼론 클러스터를 운영하고있다. docker-compose.yml 파일은 다음과 같다. version: '2.1' services: spark-master: hostname: spark-master container_name: spark-master image: spark-clus..

Data Engineering/Spark

[Spark] spark-shell, spark-submit 실행시 --num-executors 에 대한 확인

2022.04.13

이번 테스트에서 작성중인 깃허브는 다음과 같다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/1_spark-cluster GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 다른 블로그들을 보면 spark-shell 또는 pyspark 또는 spark-submit 명령어를 사용시 --num-executors 옵션을 주면 익스큐터의 갯수를 설정할 수 있다고들 한다. 하지만 나는 이 방식이 적용되지 않았다.... 이유는 잘 모르겠으나, 해결방법은 찾은 것 같다. 왜 다른 블로그에서는 ..

Data Engineering/Spark

[Spark] Spark Cluster 간단하게 만들어보기 (standalone)

2022.04.13

모든 설정파일은 아래 깃허브에 저장시켜놓았다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/1_spark-cluster GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 파일의 형태는 다음과 같다. 스파크를 한두번 설치해보면 어떤파일이 무엇인지 단번에 알 수 있을 것 같다... 먼저 도커파일을 살펴보자 FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 입력요청 무시 ENV DEBIAN_FRONTEND=noninteract..

Data Engineering/Spark

[Spark] org.apache.spark.deploy.master.Master running as process 580. Stop it first.

2022.04.13

스파크를 사용중 다음과 같은 에러가 발생 org.apache.spark.deploy.master.Master running as process 580. Stop it first. 이미 스파크 마스터가 실행되고 있어서, 만약 다시 실행시키려면 저 프로세스를 죽이고 다시 실행해야한다. 프로세스를 확인해보자 ps -ef 실제로 580 에서 실행중이고 해당 프로세스를 죽이고 다시 실행시켜보자 kill 580 ps -ef /home/spark/sbin/start-master.sh 다시 정상적으로 실행되는 것을 확인할 수 있다

Data Engineering/Spark

[Spark] 스파크 마스터 최초 실행시 얻을 수 있는 로그 내용

2022.04.13

pwd ls cat spark--org.apache.spark.deploy.master.Master-1-spark-master.out root@spark-master:/home/spark/logs# cat spark--org.apache.spark.deploy.master.Master-1-spark-master.out Spark Command: /usr/lib/jvm/java-8-openjdk-amd64/bin/java -cp /home/spark/conf/:/home/spark/jars/* -Xmx1g org.apache.spark.deploy.master.Master --host spark-master --port 17077 --webui-port 18080 =======================..

티스토리툴바