jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 설정 파일 : spark-env.sh 위치 : spark-env.sh 파일은 보통 스파크 설치 파일의 conf 폴더 안에 있다. 예를 들어서 내가 /home 에 스파크를 설치했으면 /home/spark/conf/spark-env.sh 가 있을 것이다 export SPARK_WORKER_CORES=4 export SPARK_WORKER_MEMORY=8g 위와 같이 설정하면 워커당 4개의 코어와 8기가의 메모리를 갖는다. export SPARK_WORKER_CORES=3 export SPARK_WORKER_MEMORY=6g 위와 같이 설정하면 워커당 3개의 코어와 6기가의 메모리를 갖는다. ex..
jdk 버전 : jdk-8u321-linux-x64 스파크 버전 : spark-3.2.1-bin-hadoop3.2 설정 파일 : spark-env.sh 위치 : spark-env.sh 파일은 보통 스파크 설치 파일의 conf 폴더 안에 있다. 예를 들어서 내가 /home 에 스파크를 설치했으면 /home/spark/conf/spark-env.sh 가 있을 것이다 export SPARK_WORKER_INSTANCES=3 위와 같이 설정하면 워커는 3개가 된다 export SPARK_WORKER_INSTANCES=2 위와 같이 설정하면 워커는 2개가 된다 export SPARK_WORKER_INSTANCES=1 위와 같이 설정하면 워커는 1개가 된다 export SPARK_WORKER_INSTANCES=3 ..
/home 에 hadoop 을 설치했다고 가정한다. /home/hadoop/etc/hadoop/core-site.xml - 클러스터 내의 네임노드에서 실행되는 하둡 데몬에 관한 설정 -로그파일, 네트워크 튜닝, I/O튜닝, 파일 시스템 튜닝, 압축 등 하부 시스템 설정 파일 - HDFS(hdfs-site.xml)와 맵리듀스(mapred-site.xml)에서 공통적으로 사용할 환경정보 설정 -만약 core-site.xml 이 없을 경우 core-default.xml 에 있는 기본값을 사용한다. fs.default.name hdfs://마스터호스트:9000 hadoop.tmp.dir /home/hadoop/tmp fs.defaultFS - hdfs의 기본 이름 - URI 형태 - 데이터 노드는 여러 작업..
tickTime=3000 주키퍼가 사용하는 시간의 기본 측정 단위 (ms, 밀리초) 3000이면 3초로 해석됨 initLimit=10 주키퍼 클러스터 구성했을 때, 팔로워가 리더와 초기에 연결을 시도할 때 갖는 tick의 수 tick 제한 횟수를 넘으면 timeout이 발생하고, 여기에서 initLimit=10 으로 구성하면 30초로 설정하는 의미 syncLimit=3 주키퍼 클러스터 구성했을 때, 팔로워가 리더가 연결하고 나서 팔로워와 리더가 동기화 하는 시간에 대한 타임아웃 tick 수 (주키퍼에 저장된 데이터가 많으면 높아야 함) 여기에서 syncLimit=3 으로 구성하면 9초로 설정됨 dataDir=/home/zookeeper 주키퍼의 스냅샷, 트랜잭션 로그, 상태를 저장하고 업데이트하는 디렉토..
스파크와 제플린을 실행시킨다. 스파크는 스탠드얼론으로 실행됐고, 마스터노드 1개, 워커노드 3개로 구성돼 있다. 워커노드는 각각 3개의 코어와 5기가의 메모리를 갖고있다. 스파크 ui 제플린 먼저 실행이 잘 되는지 확인해보자 sc 종료 sc.stop 기본 옵션을 살펴보자 import org.apache.spark.{SparkConf, SparkContext} val conf = new SparkConf().setAppName("Park-Gyeong-Tae") .setMaster("spark://spark-master:7077") val sc = new SparkContext(conf) println("APP Name : " + sc.appName); println("Master : " + sc.maste..