코드
from pyspark.sql import SparkSession
spark = SparkSession\
.builder\
.appName("0_save_file")\
.getOrCreate()
sc = spark.sparkContext
data = sc.parallelize(range(0, 10))
data_map = data.map(lambda x: x * x)
data_reduce = data.reduce(lambda x, y: x + y)
data_map_reduce = data_map.reduce(lambda x, y: x + y)
print(f'data : {data.collect()}')
print(f'data_map : {data_map.collect()}')
print(f'data_reduce : {data_reduce}')
print(f'data_map_reduce : {data_map_reduce}')
spark.stop()
결과
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] RDD의 데이터를 소문자, 대문자로 만드는 방법 (0) | 2022.05.29 |
---|---|
[Spark] map 함수 vs flatMap 함수 (0) | 2022.05.29 |
[Spark] 판다스 데이터프레임을 스파크 데이터프레임으로 변경하는 방법 (0) | 2022.05.29 |
[Spark] csv 파일을 읽어서 스파크 데이터프레임으로 만드는 방법 (0) | 2022.05.29 |
[Spark] 간단한 DataFrame 만드는 방법 (0) | 2022.05.29 |