+-------------------------------------------------------------+---------+-------------+
| Code | 100,000 | 100,000,000 |
+-------------------------------------------------------------+---------+-------------+
| df.select("col_name").rdd.flatMap(lambda x: x).collect() | 0.4 | 55.3 |
| list(df.select('col_name').toPandas()['col_name']) | 0.4 | 17.5 |
| df.select('col_name').rdd.map(lambda row : row[0]).collect()| 0.9 | 69 |
| [row[0] for row in df.select('col_name').collect()] | 1.0 | OOM |
| [r[0] for r in mid_df.select('col_name').toLocalIterator()] | 1.2 | * |
+-------------------------------------------------------------+---------+-------------+
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] pyspark dataframe 생성시 schema data type 설정 방법 (0) | 2023.01.14 |
---|---|
[Spark] pyspark dataframe 의 특정 열을 list로 만드는 방법 (0) | 2023.01.14 |
[Spark] pyspark dataframe 특정 컬럼(열)만 출력하는 방법 (0) | 2023.01.14 |
[Spark] pyspark dataframe 컬럼을 이용해 연산하는 방법 (0) | 2023.01.14 |
[Spark] pyspark dataframe을 원하는 열로 groupby 하는 방법 (0) | 2023.01.14 |