코드
from pyspark.sql import SparkSession
if __name__ == "__main__":
spark = SparkSession\
.builder\
.appName("0_save_file")\
.getOrCreate()
sc = spark.sparkContext
lines = sc.parallelize(['i love you', 'you are my friend', 'my name is park'])
print(f'lines : {lines.collect()}' )
# pairs = lines.map(lambda s: s.split(" "))
# pairs = pairs.filter(lambda x: len(x) > 3)
pairs = lines.flatMap(lambda x: x.split(" ")).map(lambda word: (word, 1))
print(f'pairs : {pairs.collect()}' )
spark.stop()
결과
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] 간단한 DataFrame 만드는 방법 (0) | 2022.05.29 |
---|---|
[Spark] RDD를 map한 결과를 각각의 키로 합계내는 방법 (0) | 2022.05.29 |
[Spark] RDD를 필터처리하는 방법 (0) | 2022.05.29 |
[Spark] RDD에 있는 문장을 띄어쓰기로 나누는 방법 (0) | 2022.05.29 |
[Spark] RDD 앞에서부터 원하는 갯수만큼 사용하는 방법 (0) | 2022.05.28 |