코드
from pyspark.sql import SparkSession
if __name__ == "__main__":
spark = SparkSession\
.builder\
.appName("0_save_file")\
.getOrCreate()
sc = spark.sparkContext
line_1 = sc.parallelize(['0', '1', '2', '3', '4'])
line_2 = sc.parallelize(['5', '6', '7', '8', '9'])
line_3 = sc.parallelize(['10', '11', '12', '13', '14'])
line_all = line_1.union(line_2).union(line_3)
line_filter = line_all.filter(lambda x: "1" in x)
print('line_all :', f'{line_all.count()}, {line_all.collect()}')
print('list_filter :', f'{line_filter.count()}, {line_filter.collect()}')
spark.stop()
결과
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] RDD에 있는 문장을 띄어쓰기로 나누는 방법 (0) | 2022.05.29 |
---|---|
[Spark] RDD 앞에서부터 원하는 갯수만큼 사용하는 방법 (0) | 2022.05.28 |
[Spark] 리스트 값이 있는 rdd 여러개를 하나의 rdd로 만드는 방법 (0) | 2022.05.28 |
[Spark] pyspark는 코드 상에서 2개 이상의 rdd를 같은 위치에 파일을 저장할 수 없다. (0) | 2022.05.28 |
[Spark] org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file (0) | 2022.05.28 |