'Data Engineering/Spark' 카테고리의 글 목록 (11 Page)

[Spark] 로컬에서 스파크 클러스터 테스트시 사용하는 dockerfile

2022.03.20

Dockerfile FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 입력요청 무시 ENV DEBIAN_FRONTEND=noninteractive # 가끔 프록시 엇갈리는 문제 # RUN set -x \ # && { \ # echo 'Acquire::http::Pipeline-Depth 0;'; \ # echo 'Acquire::http::No-Cache true;'; \ # echo 'Acquire::BrokenProxy true;'; \ # } > /etc/apt/apt.conf.d/99fixbadproxy # apt 미러서버 미국(default) -> 한국 변경 RUN sed -i 's@archive.ubuntu.com@kr.archive...

Data Engineering/Spark

[Spark] 제플린에서 spark context 옵션에 대해 살펴보기

2022.03.19

스파크와 제플린을 실행시킨다. 스파크는 스탠드얼론으로 실행됐고, 마스터노드 1개, 워커노드 3개로 구성돼 있다. 워커노드는 각각 3개의 코어와 5기가의 메모리를 갖고있다. 스파크 ui 제플린 먼저 실행이 잘 되는지 확인해보자 sc 종료 sc.stop 기본 옵션을 살펴보자 import org.apache.spark.{SparkConf, SparkContext} val conf = new SparkConf().setAppName("Park-Gyeong-Tae") .setMaster("spark://spark-master:7077") val sc = new SparkContext(conf) println("APP Name : " + sc.appName); println("Master : " + sc.maste..

Data Engineering/Spark

[Spark] 제플린에서 spark-shell 옵션 설정하는 방법

2022.03.19

스파크와 제플린을 실행시킨다. 스파크 ui 제플린 다음과 같이 입력해보자 sc 스파크 ui를 보자 앱이 하나 실행됐고, 코어당 1기가의 메모리를 사용하는 것으로 총 9기가의 메모리를 사용하는 앱이 실행됐다. 앱을 종료시켜보자 sc.stop 앱이 종료된 것을 확인할 수 있다. 이번에는 내가 원하는 옵션을 취해보자 먼저 애플리케이션 이름을 설정해보자 import org.apache.spark.{SparkConf, SparkContext} val conf = new SparkConf().setAppName("Park-Gyeong-Tae") .setMaster("spark://spark-master:7077") val sc = new SparkContext(conf) println("APP Name : " + ..

Data Engineering/Spark

[Spark] 아파치 스파크 클러스터와 제플린 실행시 jps 상태 확인

2022.03.19

스파크 컨테이너의 jps 제플린 컨테이너의 jps 스파크 ui 제플린 ui 앱을 실행시켜보자 sc 스파크 ui 스파크 컨테이너의 jps를 확인해보자 제플린 컨테이너의 jps를 확인해보자 이번엔 제플린에서 간단한 액션을 취해보자 val data = sc.parallelize(1 to 100 by 1) println(data.count) 스파크 ui 스파크 앱 ui 스파크 컨테이너의 jps 확인 제플린 컨테이너의 jps를 확인해보자

Data Engineering/Spark

[Spark] spark stand alone cluster, zeppline 사용시 jps, jdk 상태

2022.03.18

하나의 서버에 스파크를 스탠드얼론으로 구축했고, 마스터 1, 워커 3개가 있다. 또 다른 서버에는 위의 스파크 클러스터를 바라보는 제플린을 설치했다. 두개의 서버에서 jps는 어떤 형태를 갖는지 확인해보자 스파크 클러스터가 있는 서버 재플린이 있는 서버 처음 실행시켰을 때 도커상태 스파크 제플린

Data Engineering/Spark

[Spark] zeppelin에서 spark application 실행하고 간단한 데이터 처리

2022.03.18

스파크 실행 제플린 실행 간단한 스칼라 코드 입력 val data = sc.parallelize(1 to 100 by 10) 스파크 확인 애플리케이션이 자동으로 실행된 것을 확인할 수 있다. 이번에는 저 어플리케이션 아이디를 클릭해보자 현재 워커노드는 총 3개 있다 총 코어는 6개고 메모리는 12기가이다. 노드마다 코어는 2개씩 갖고있고, 메모리는 4기가씩 갖고있다. 이 어플리케이션은 6개의 코어를 사용하고 코어마다 1기가의 메모리를 사용한다는 것을 알 수있다 이번엔 스파크를 액션시켜보자 data.count 스파크 메인화면을 보자 스파크 메인화면에서는 어플리케이션에 대한 정보만 확인할 수 있다. 어플리케이션 아이디를 다시 클릭해보자 여기에서는 각각의 노드가 몇코어씩, 그리고 코어마다 메모리 몇기가를 사용..

Data Engineering/Spark

[Spark] zeppelin에서 spark 어플리케이션 실행하고 종료하는 방법

2022.03.18

제플린으로 스파크를 간단하게 구동시켜보자 먼저 스파크와 제플린을 구동시킨다. 스파크 제플린 sc를 입력해보자 sc sc가 실행됐으면 스파크를 확인해보자 어플리케이션 하나가 구동된 것을 확인할 수 있다. 이번에는 종료시켜보자 sc.stop 스파크를 확인한다 잘 종료된 것을 확인할 수 있다.

Data Engineering/Spark

[Spark] spark cluster에서 워커노드별 코어와 메모리 할당

2022.03.18

stand-alone 모드이고 마스터노드 1개 워커노드 3개로 구성했다. bash /home/spark/sbin/start-slave.sh spark://spark-master:7077 -m 1g -c 1 1개의 워커노드는 1기가의 메모리, 1개의 코어 전체 워커노드는 3기가의 메모리, 3개의 코어 bash /home/spark/sbin/start-slave.sh spark://spark-master:7077 -m 2g -c 1 1개의 워커노드는 2기가의 메모리, 1개의 코어 전체 워커노드는 6기가의 메모리, 3개의 코어 bash /home/spark/sbin/start-slave.sh spark://spark-master:7077 -m 1g -c 2 1개의 워커노드는 1기가의 메모리, 2개의 코어 전체..

티스토리툴바