코드
from pyspark.sql import SparkSession
from pyspark.sql import Row
from pyspark.sql.functions import max, avg, sum, min
spark = SparkSession\
.builder\
.appName("1_test_dataframe")\
.getOrCreate()
sc = spark.sparkContext
data = [Row(name = 'a', age = 12, type = 'A', score = 90, year = 2012),
Row(name = 'a', age = 15, type = 'B', score = 80, year = 2013),
Row(name = 'b', age = 15, type = 'B', score = 80, year = 2014),
Row(name = 'b', age = 21, type = 'F', score = 50, year = 2015),
Row(name = 'c', age = 15, type = 'C', score = 70, year = 2016),
Row(name = 'c', age = 33, type = 'F', score = 50, year = 2017)]
spark_df = sc.parallelize(data).toDF()
print(spark_df.first())
spark.stop()
결과
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] pyspark 코드에서 spark master host 변경하는 방법 (0) | 2022.06.01 |
---|---|
[Spark] pyspark 코드에서 어플리케이션 이름 변경하는 방법 (0) | 2022.06.01 |
[Spark] 스파크 데이터프레임 groupBy() 동시에 컬럼명 수정하는 방법 (0) | 2022.06.01 |
[Spark] 스파크 데이터프레임을 agg() 이용해서 groupBy() 하는 방법 (0) | 2022.06.01 |
[Spark] 스파크 데이터프레임 groupBy 사용하는 방법 (0) | 2022.06.01 |