코드
from pyspark.sql import SparkSession
spark = SparkSession\
.builder\
.appName("0_save_file")\
.getOrCreate()
sc = spark.sparkContext
line_1 = 'i love you'
line_2 = 'you are my friend'
line_3 = 'my name is park'
lines = sc.parallelize([line_1, line_2, line_3])
lines_map = lines.map(lambda x: x.split(' '))
lines_flatmap = lines.flatMap(lambda x: x.split(' '))
print(f'lines.collect() : {lines.collect()}')
print(f'lines_map.collect() : {lines_map.collect()}')
print(f'lines_flatmap.collect() : {lines_flatmap.collect()}')
spark.stop()
결과
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] 스파크 데이터프레임 전체 데이터 출력하는 방법 (0) | 2022.06.01 |
---|---|
[Spark] RDD의 데이터를 소문자, 대문자로 만드는 방법 (0) | 2022.05.29 |
[Spark] 10개의 숫자를 map 하고, reduce 처리 하는 방법 (0) | 2022.05.29 |
[Spark] 판다스 데이터프레임을 스파크 데이터프레임으로 변경하는 방법 (0) | 2022.05.29 |
[Spark] csv 파일을 읽어서 스파크 데이터프레임으로 만드는 방법 (0) | 2022.05.29 |