data = [{
'id': 'id_1',
'category': 'category_1'
},
{
'id': 'id_2',
'category': 'category_2'
}]
df = spark.createDataFrame(data)
df.printSchema()
df.show()
schema = StructType([
StructField('id', StringType()),
StructField('category', StringType())
])
df = spark.createDataFrame(data, schema)
df.printSchema()
df.show()
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] TypeError: Can not infer schema for type: <class 'str'> 해결 방법 (0) | 2022.12.16 |
---|---|
[Spark] Pyspark json List를 처리하는 방법 (0) | 2022.12.16 |
[Spark] Pyspark 간단한 StructType 사용하는 방법 (0) | 2022.12.16 |
[Spark] 아파치 스파크의 실행 과정 요약 (0) | 2022.07.10 |
[spark] spark-prometheus-grafana 대시보드 정리 (0) | 2022.07.03 |