코드
from pyspark.sql import SparkSession
from pyspark.sql import Row
if __name__ == "__main__":
spark = SparkSession\
.builder\
.appName("0_save_file")\
.getOrCreate()
sc = spark.sparkContext
data_1 = [("kim", 1), ("park", 2), ("choi", 3)]
data_2 = [Row(name='kim', age=5, height=80),
Row(name='park', age=5, height=80),
Row(name='choi', age=10, height=80)]
df_1 = sc.parallelize(data_1).toDF()
df_2 = sc.parallelize(data_2).toDF()
print(df_1.show())
print(df_2.show())
spark.stop()
결과
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] 판다스 데이터프레임을 스파크 데이터프레임으로 변경하는 방법 (0) | 2022.05.29 |
---|---|
[Spark] csv 파일을 읽어서 스파크 데이터프레임으로 만드는 방법 (0) | 2022.05.29 |
[Spark] RDD를 map한 결과를 각각의 키로 합계내는 방법 (0) | 2022.05.29 |
[Spark] RDD의 문장들을 띄어쓰기로 단어를 나누고 카운트하는 방법 (0) | 2022.05.29 |
[Spark] RDD를 필터처리하는 방법 (0) | 2022.05.29 |