코드
from pyspark.sql import SparkSession
if __name__ == "__main__":
spark = SparkSession\
.builder\
.appName("0_save_file")\
.getOrCreate()
sc = spark.sparkContext
lines = sc.parallelize(['i love you', 'you are my friend', 'my name is park'])
print(lines.collect())
pairs = lines.map(lambda s: s.split(" "))
pairs = pairs.filter(lambda x: len(x) > 3)
print(pairs.collect())
spark.stop()
결과
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] RDD를 map한 결과를 각각의 키로 합계내는 방법 (0) | 2022.05.29 |
---|---|
[Spark] RDD의 문장들을 띄어쓰기로 단어를 나누고 카운트하는 방법 (0) | 2022.05.29 |
[Spark] RDD에 있는 문장을 띄어쓰기로 나누는 방법 (0) | 2022.05.29 |
[Spark] RDD 앞에서부터 원하는 갯수만큼 사용하는 방법 (0) | 2022.05.28 |
[Spark] RDD에서 filter 적용해서 데이터 처리하는 방법 (0) | 2022.05.28 |