코드
from pyspark.sql import SparkSession
import numpy as np
import pandas as pd
spark = SparkSession \
.builder \
.appName("1_test_dataframe") \
.getOrCreate()
df_pandas = pd.DataFrame(np.random.rand(100, 3))
df_spark = spark.createDataFrame(df_pandas)
df_re_pandas = df_spark.select("*").toPandas()
print(df_pandas.head(5))
print(df_spark.show(5))
print(df_re_pandas.head(5))
spark.stop()
결과
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] map 함수 vs flatMap 함수 (0) | 2022.05.29 |
---|---|
[Spark] 10개의 숫자를 map 하고, reduce 처리 하는 방법 (0) | 2022.05.29 |
[Spark] csv 파일을 읽어서 스파크 데이터프레임으로 만드는 방법 (0) | 2022.05.29 |
[Spark] 간단한 DataFrame 만드는 방법 (0) | 2022.05.29 |
[Spark] RDD를 map한 결과를 각각의 키로 합계내는 방법 (0) | 2022.05.29 |