Data Engineering/Spark

Data Engineering/Spark

[Spark] 리스트 값이 있는 rdd 여러개를 하나의 rdd로 만드는 방법

코드 from pyspark.sql import SparkSession if __name__ == "__main__": spark = SparkSession\ .builder\ .appName("0_save_file")\ .getOrCreate() line_1 = spark.sparkContext.parallelize(['0', '1', '2', '3', '4']) line_2 = spark.sparkContext.parallelize(['5', '6', '7', '8', '9']) line_3 = spark.sparkContext.parallelize(['10', '11', '12', '13', '14']) line_all = line_1.union(line_2).union(line_3) print('..

Data Engineering/Spark

[Spark] pyspark는 코드 상에서 2개 이상의 rdd를 같은 위치에 파일을 저장할 수 없다.

내 코드를 보자 from pyspark.sql import SparkSession if __name__ == "__main__": spark = SparkSession\ .builder\ .appName("0_save_file")\ .getOrCreate() alphabet_list = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z'] alphabet_rdd = spark.sparkContext.parallelize(alphabet_list) number_rdd = spark.sparkContext.parallelize(r..

Data Engineering/Spark

[Spark] org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file

스파크 테스트 중 다음과 같은 에러가 발생 22/05/28 11:51:49 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Traceback (most recent call last): File "0_save_file.py", line 24, in alphabet_rdd.saveAsTextFile("/home/spark/result/0_save_file") File "/usr/local/lib/python3.8/dist-packages/pyspark/rdd.py", line 1828, in saveAsTextFile keyed._j..

Data Engineering/Spark

[Spark] Zeppelin 사용하여 여러가지 RDD 만드는 방법 parallelize 사용

https://github.com/ParkGyeongTae/spark-pgt/tree/main/2_spark-cluster-zeppelin GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 입력 %spark val data = sc.parallelize(1 to 100) data.count 출력 data: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[3] at parallelize at :26 res13: Long = 100 입력 %spark val data = sc.paral..

Data Engineering/Spark

[Spark] Zeppelin 실행시 초기 로그 확인하기

사용중인 파일 모음 https://github.com/ParkGyeongTae/spark-pgt/tree/main/2_spark-cluster-zeppelin GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 로그 파일 위치 pwd ll cat zeppelin--zeppelin.out cat zeppelin--zeppelin.log root@zeppelin:/home/zeppelin/logs# cat zeppelin--zeppelin.log WARN [2022-04-15 07:03:09,425] ({main} ZeppelinCo..

Data Engineering/Spark

[Spark] Apache Zeppelin 로그 파일 위치 확인하기

모든 설정파일은 아래에서 확인이 가능합니다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/2_spark-cluster-zeppelin GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 나는 제플린의 로그가 어디에 쌓이는지 확인하고 싶었다. 기본적으로 제플린의 로그는 제플린 폴더 안에 /logs 라는 곳에 들어간다. pwd ll cd logs ll pwd 로그의 위치는 zeppelin-env.sh 에서 설정할 수 있다. ZEPPELIN_LOG_DIR 만약 로깅되는 위치를 수정하고싶..

Data Engineering/Spark

[Spark] Apache Spark + Apache Zeppelin 실행하기

사용한 파일은 아래 깃허브로 구성을 했다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/2_spark-cluster-zeppelin GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 먼저 파일 구조를 보자 dockerfile FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 입력요청 무시 ENV DEBIAN_FRONTEND=noninteractive # apt 미러서버 미국(default) -> 한국 변경 RUN sed ..

Data Engineering/Spark

[Spark] Stand-Alone 실행 중 Master 컨테이너 중지 후 실행

사용 중인 스파크 설정 관련 깃허브는 다음과 같다 https://github.com/ParkGyeongTae/spark-pgt/tree/main/1_spark-cluster GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 마스터1, 슬레이브3의 스탠드 얼론 클러스터를 운영하고있다. docker-compose.yml 파일은 다음과 같다. version: '2.1' services: spark-master: hostname: spark-master container_name: spark-master image: spark-clus..

Data Engineering/Spark

[Spark] spark-shell, spark-submit 실행시 --num-executors 에 대한 확인

이번 테스트에서 작성중인 깃허브는 다음과 같다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/1_spark-cluster GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 다른 블로그들을 보면 spark-shell 또는 pyspark 또는 spark-submit 명령어를 사용시 --num-executors 옵션을 주면 익스큐터의 갯수를 설정할 수 있다고들 한다. 하지만 나는 이 방식이 적용되지 않았다.... 이유는 잘 모르겠으나, 해결방법은 찾은 것 같다. 왜 다른 블로그에서는 ..

Data Engineering/Spark

[Spark] Spark Cluster 간단하게 만들어보기 (standalone)

모든 설정파일은 아래 깃허브에 저장시켜놓았다. https://github.com/ParkGyeongTae/spark-pgt/tree/main/1_spark-cluster GitHub - ParkGyeongTae/spark-pgt Contribute to ParkGyeongTae/spark-pgt development by creating an account on GitHub. github.com 파일의 형태는 다음과 같다. 스파크를 한두번 설치해보면 어떤파일이 무엇인지 단번에 알 수 있을 것 같다... 먼저 도커파일을 살펴보자 FROM ubuntu:18.04 LABEL maintainer "ParkGyeongTae" # apt 설치시 입력요청 무시 ENV DEBIAN_FRONTEND=noninteract..

박경태
'Data Engineering/Spark' 카테고리의 글 목록 (8 Page)