[Spark] zeppelin에서 spark application 실행하고 간단한 데이터 처리

728x90

스파크 실행

제플린 실행

간단한 스칼라 코드 입력

val data = sc.parallelize(1 to 100 by 10)

스파크 확인

애플리케이션이 자동으로 실행된 것을 확인할 수 있다.

이번에는 저 어플리케이션 아이디를 클릭해보자

현재 워커노드는 총 3개 있다

총 코어는 6개고 메모리는 12기가이다.

노드마다 코어는 2개씩 갖고있고, 메모리는 4기가씩 갖고있다.

이 어플리케이션은 6개의 코어를 사용하고 코어마다 1기가의 메모리를 사용한다는 것을 알 수있다

이번엔 스파크를 액션시켜보자

data.count

스파크 메인화면을 보자

스파크 메인화면에서는 어플리케이션에 대한 정보만 확인할 수 있다.

어플리케이션 아이디를 다시 클릭해보자

여기에서는 각각의 노드가 몇코어씩, 그리고 코어마다 메모리 몇기가를 사용하는지만 알 수있다.

실행결과를 확인하려면 localhost:4040으로 들어가야한다

방금 실행한 잡이 보여진다.

다시한번 제플린에서 실행해보자

data.count

localhost:4040을 보자

잡이 하나 더 늘었다

이번에는 처음에 친 코드와 비슷한 코드를 입력해보자

val data_test = sc.parallelize(1 to 100 by 10)

localhost:4040 을 확인해보자

잡이 실행되지 않았다.

다시한번 확인해보자

sc.parallelize(1 to 100 by 10)

localhost:4040

스파크를 이용할때 내장함수 중 트랜스포머와 액션이라는 종류가 있는데,

스파크는 액션일 때 실행되는 것을 알 수 있다.

이번에는 액션관련 함수를 사용해서 실행시켜보자

data_test.take(5)

localhost:4040

728x90

[Spark] 제플린에서 spark-shell 옵션 설정하는 방법 (0)	2022.03.19
[Spark] 아파치 스파크 클러스터와 제플린 실행시 jps 상태 확인 (0)	2022.03.19
[Spark] spark stand alone cluster, zeppline 사용시 jps, jdk 상태 (0)	2022.03.18
[Spark] zeppelin에서 spark 어플리케이션 실행하고 종료하는 방법 (0)	2022.03.18
[Spark] spark cluster에서 워커노드별 코어와 메모리 할당 (0)	2022.03.18

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바