코드
from pyspark.sql import SparkSession
spark = SparkSession\
.builder\
.appName("0_save_file")\
.getOrCreate()
sc = spark.sparkContext
line_1 = 'i love you'
line_2 = 'you are my friend'
line_3 = 'my name is park'
lines = sc.parallelize([line_1.upper(),
line_2.upper(),
line_3.upper()])
lines_map = lines.map(lambda x: x.lower().split(' '))
lines_flatmap = lines.flatMap(lambda x: x.lower().split(' '))
print(f'lines.collect() : {lines.collect()}')
print(f'lines_map.collect() : {lines_map.collect()}')
print(f'lines_flatmap.collect() : {lines_flatmap.collect()}')
spark.stop()
결과
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] 스파크 데이터프레임 원하는 컬럼 출력하는 방법 (0) | 2022.06.01 |
---|---|
[Spark] 스파크 데이터프레임 전체 데이터 출력하는 방법 (0) | 2022.06.01 |
[Spark] map 함수 vs flatMap 함수 (0) | 2022.05.29 |
[Spark] 10개의 숫자를 map 하고, reduce 처리 하는 방법 (0) | 2022.05.29 |
[Spark] 판다스 데이터프레임을 스파크 데이터프레임으로 변경하는 방법 (0) | 2022.05.29 |