코드
from pyspark.sql import SparkSession
if __name__ == "__main__":
spark = SparkSession\
.builder\
.appName("0_save_file")\
.getOrCreate()
line_1 = spark.sparkContext.parallelize(['0', '1', '2', '3', '4'])
line_2 = spark.sparkContext.parallelize(['5', '6', '7', '8', '9'])
line_3 = spark.sparkContext.parallelize(['10', '11', '12', '13', '14'])
line_all = line_1.union(line_2).union(line_3)
print('line_1 :', f'{line_1.count()}, {line_1.collect()}')
print('line_2 :', f'{line_2.count()}, {line_2.collect()}')
print('line_3 :', f'{line_3.count()}, {line_3.collect()}')
print('line_all :', f'{line_all.count()}, {line_all.collect()}')
spark.stop()
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] RDD 앞에서부터 원하는 갯수만큼 사용하는 방법 (0) | 2022.05.28 |
---|---|
[Spark] RDD에서 filter 적용해서 데이터 처리하는 방법 (0) | 2022.05.28 |
[Spark] pyspark는 코드 상에서 2개 이상의 rdd를 같은 위치에 파일을 저장할 수 없다. (0) | 2022.05.28 |
[Spark] org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file (0) | 2022.05.28 |
[Spark] Zeppelin 사용하여 여러가지 RDD 만드는 방법 parallelize 사용 (0) | 2022.04.15 |