1. 사용자는 Spark를 실행
2. Spark-Submit 으로 애플리케이션 제출
3. Spark Driver Process 가 Main()을 실행
4. SparkContext를 생성
5. SparkContext와 Spark Cluster Manager 연결
6. Spark Driver Process 가 Spark Cluster Manager 로 부터 Executor 실행을 위한 리소스 요청
7. Spark Context는 작업 내용을 task 단위로 분할하여 Executor 에 전송
8. 각 Executor는 작업을 수행
9. 결과를 저장
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] Pyspark List+Json 확인하는 방법 (0) | 2022.12.16 |
---|---|
[Spark] Pyspark 간단한 StructType 사용하는 방법 (0) | 2022.12.16 |
[spark] spark-prometheus-grafana 대시보드 정리 (0) | 2022.07.03 |
[Spark] Docker, failed: port is already allocated (0) | 2022.06.05 |
[Spark] pyspark RDD parallelize(number) union() map() (0) | 2022.06.05 |