데이터 엔지니어

Data Engineering/Spark

[Spark] 제플린에서 spark-shell 옵션 설정하는 방법

스파크와 제플린을 실행시킨다. 스파크 ui 제플린 다음과 같이 입력해보자 sc 스파크 ui를 보자 앱이 하나 실행됐고, 코어당 1기가의 메모리를 사용하는 것으로 총 9기가의 메모리를 사용하는 앱이 실행됐다. 앱을 종료시켜보자 sc.stop 앱이 종료된 것을 확인할 수 있다. 이번에는 내가 원하는 옵션을 취해보자 먼저 애플리케이션 이름을 설정해보자 import org.apache.spark.{SparkConf, SparkContext} val conf = new SparkConf().setAppName("Park-Gyeong-Tae") .setMaster("spark://spark-master:7077") val sc = new SparkContext(conf) println("APP Name : " + ..

Data Engineering/Spark

[Spark] 아파치 스파크 클러스터와 제플린 실행시 jps 상태 확인

스파크 컨테이너의 jps 제플린 컨테이너의 jps 스파크 ui 제플린 ui 앱을 실행시켜보자 sc 스파크 ui 스파크 컨테이너의 jps를 확인해보자 제플린 컨테이너의 jps를 확인해보자 이번엔 제플린에서 간단한 액션을 취해보자 val data = sc.parallelize(1 to 100 by 1) println(data.count) 스파크 ui 스파크 앱 ui 스파크 컨테이너의 jps 확인 제플린 컨테이너의 jps를 확인해보자

Data Engineering/Spark

[Spark] spark stand alone cluster, zeppline 사용시 jps, jdk 상태

하나의 서버에 스파크를 스탠드얼론으로 구축했고, 마스터 1, 워커 3개가 있다. 또 다른 서버에는 위의 스파크 클러스터를 바라보는 제플린을 설치했다. 두개의 서버에서 jps는 어떤 형태를 갖는지 확인해보자 스파크 클러스터가 있는 서버 재플린이 있는 서버 처음 실행시켰을 때 도커상태 스파크 제플린

Data Engineering/Spark

[Spark] zeppelin에서 spark application 실행하고 간단한 데이터 처리

스파크 실행 제플린 실행 간단한 스칼라 코드 입력 val data = sc.parallelize(1 to 100 by 10) 스파크 확인 애플리케이션이 자동으로 실행된 것을 확인할 수 있다. 이번에는 저 어플리케이션 아이디를 클릭해보자 현재 워커노드는 총 3개 있다 총 코어는 6개고 메모리는 12기가이다. 노드마다 코어는 2개씩 갖고있고, 메모리는 4기가씩 갖고있다. 이 어플리케이션은 6개의 코어를 사용하고 코어마다 1기가의 메모리를 사용한다는 것을 알 수있다 이번엔 스파크를 액션시켜보자 data.count 스파크 메인화면을 보자 스파크 메인화면에서는 어플리케이션에 대한 정보만 확인할 수 있다. 어플리케이션 아이디를 다시 클릭해보자 여기에서는 각각의 노드가 몇코어씩, 그리고 코어마다 메모리 몇기가를 사용..

Data Engineering/Spark

[Spark] zeppelin에서 spark 어플리케이션 실행하고 종료하는 방법

제플린으로 스파크를 간단하게 구동시켜보자 먼저 스파크와 제플린을 구동시킨다. 스파크 제플린 sc를 입력해보자 sc sc가 실행됐으면 스파크를 확인해보자 어플리케이션 하나가 구동된 것을 확인할 수 있다. 이번에는 종료시켜보자 sc.stop 스파크를 확인한다 잘 종료된 것을 확인할 수 있다.

Data Engineering/Spark

[Spark] spark cluster에서 워커노드별 코어와 메모리 할당

stand-alone 모드이고 마스터노드 1개 워커노드 3개로 구성했다. bash /home/spark/sbin/start-slave.sh spark://spark-master:7077 -m 1g -c 1 1개의 워커노드는 1기가의 메모리, 1개의 코어 전체 워커노드는 3기가의 메모리, 3개의 코어 bash /home/spark/sbin/start-slave.sh spark://spark-master:7077 -m 2g -c 1 1개의 워커노드는 2기가의 메모리, 1개의 코어 전체 워커노드는 6기가의 메모리, 3개의 코어 bash /home/spark/sbin/start-slave.sh spark://spark-master:7077 -m 1g -c 2 1개의 워커노드는 1기가의 메모리, 2개의 코어 전체..

Database/SQL

[SQL] 파이썬과 마리아디비 테스트용으로 도커 컨테이너 만들기

파이썬과 데이터베이스 연결을 위해 두개의 컨테이너를 만드는 작업을 해보자 파일의 구조는 다음과 같다 docker-compose.yml version: '2.1' services: mariadb: image: mariadb:10.7 hostname: mariadb container_name: mariadb restart: always ports: - 3376:3306 environment: MYSQL_ROOT_PASSWORD: root python: hostname: python container_name: python build: context: . dockerfile: ./Dockerfile stdin_open: true tty: true restart: always volumes: - type: bi..

Database/SQL

[SQL] MariaDB 테이블 정보를 쿼리로 확인하는 방법

데이터베이스 목록 조회 show databases; 데이터베이스 a_db 로 만들기 create database a_db; show databases; a_db 데이터베이스를 사용하고, 테이블 조회하기 use a_db; show tables; 테이블 만들어보기 a_table create table a_db.a_table (num int primary key, num2 int); show tables; 만든 테이블의 정보 조회하기 show columns from a_db.a_table; b_table 이라는 테이블을 만드는데 테이블의 열은 num, num2 컬럼으로 만들고 둘다 타입을 int(3) 으로 만들어보자 create table a_db.b_table (num int(3) primary key, n..

Database/SQL

[SQL] MariaDB에서 반복문 사용하는 방법

데이터베이스 확인 show databases; 데이터베이스 만들기 create database a_db default character set UTF8; show databases; a_db 데이터베이스 사용으로 전환 use a_db; 테이블 확인 show tables; 테이블 만들기 create table a_table(num int(10) primary key, num2 int(10)); show tables; 테이블 조회하기 select * from a_table; 프로시저 만들기 CREATE PROCEDURE a_db.myFunction() BEGIN DECLARE i INT DEFAULT 1; WHILE (i

Database/SQL

[SQL] MariaDB 데이터베이스 만들고 확인 및 테이블 만들고 확인하기

데이터베이스 확인 show databases; 데이터베이스 만들고 확인하기 create database a_db default character set UTF8; show databases; 또 새로운 데이터베이스 만들고 확인해보기 create database b_db default character set UTF8; show databases; b_db 데이터베이스 삭제하고 확인해보기 drop database b_db; show databases; a_db 데이터베이스에서 a_table 이라는 테이블 만들어보기 create table a_db.a_table (id int primary key auto_increment, name varchar(32) not null) ENGINE=INNODB; use ..

박경태
'분류 전체보기' 카테고리의 글 목록 (76 Page)