data = [{
'id': 'id_1',
'category': 'category_1'
}, {
'id': 'id_2',
'category': 'category_2'
}]
schema = MapType(StringType(), StringType())
df = spark.createDataFrame(data, schema)
df.printSchema()
df.show(truncate=False)
df.withColumn('id', df.value.id).withColumn('category', df.value.category).drop('value').show()
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] Pyspark dataframe 안의 List 처리하는 방법 (0) | 2022.12.16 |
---|---|
[Spark] TypeError: Can not infer schema for type: <class 'str'> 해결 방법 (0) | 2022.12.16 |
[Spark] Pyspark List+Json 확인하는 방법 (0) | 2022.12.16 |
[Spark] Pyspark 간단한 StructType 사용하는 방법 (0) | 2022.12.16 |
[Spark] 아파치 스파크의 실행 과정 요약 (0) | 2022.07.10 |