'Data Engineering/Spark' 카테고리의 글 목록 (2 Page)

[Spark] Spark Executor 란 무엇일까

2023.12.30

스파크 익스큐터에 대한 간단한 설명 - 스파크 클러스터의 워커 노드에서 실행되는 프로세스 - 스파크 드라이버에 의해 할당된 작업을 실행하는 역할 스파크 익스큐터는 스파크 어플리케이션의 핵심 역할 - 실제로 데이터에 대한 계산을 수행 스파크 드라이버가 클러스터에 작업을 제출했을 때 - 작업은 태스크라는 작업 단위로 나눠짐 - 태스크들은 스파크 클러스터 내의 이용 가능한 익스큐터에 실행되도록 예약됨 - 익스큐터는 태스크들을 병렬로 실행하고 결과를 다시 드라이버로 반환 익스큐터가 실행될 때 - 특정 양의 메모리와 CPU 리소스가 할당 - 이 메모리를 사용하여 계산 중 빠른 액세스를 위해 데이터를 메모리에 저장 - 익스큐터는 캐시, 디스크에 저장된 데이터를 관리하며, 데이터가 노드 간에 교환되어야 하는 셔플 작..

Data Engineering/Spark

[Spark] 스파크란 무엇인가?

2023.04.21

아파치 스파크란? 아파치 스파크(Apache Spark)는 대규모 데이터 처리를 위한 오픈소스 분산 컴퓨팅 프레임워크입니다. 스파크는 빅데이터 처리를 위한 하둡 생태계 내에서 많이 사용되며, 분산 컴퓨팅 클러스터에서 대규모 데이터 처리를 지원합니다. 스파크는 다양한 언어로 개발이 가능하며, 스칼라, 자바, 파이썬, R 등에서 사용될 수 있습니다. 스파크는 기본적으로 데이터 처리를 위한 API인 RDD(Resilient Distributed Datasets)와 데이터 처리 및 머신러닝을 위한 라이브러리들을 제공합니다. RDD는 분산된 불변 객체 컬렉션으로, 다양한 방식으로 생성이 가능합니다. RDD는 높은 가용성과 내구성을 가지며, 분산 컴퓨팅 클러스터에서 안정적으로 처리를 수행할 수 있습니다. 스파크는 ..

Data Engineering/Spark

[Spark] conda로 pyspark 환경 구축하기

2023.01.14

아나콘다 가상환경 리스트 확인 conda env list python 가상환경 만들기 conda create -n py38 python==3.8 -y 가상환경 리스트 확인 conda env list 가상환경 접속 후 리스트 확인 conda activate py38 conda env list pyspark 3.3.1 설치 conda install -c conda-forge pyspark==3.3.1 -y 라이브러리 리스트 확인 pip list 간단한 pyspark 코드 실행해보기 from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType spark = Spar..

Data Engineering/Spark

[Spark] ValueError: field score: This field is not nullable, but got None

2023.01.14

다음과 같은 에러가 발생 Traceback (most recent call last): File "df_schema_null.py", line 23, in df = spark.createDataFrame(data = data, schema = schema) File "/Users/pgt0409/opt/anaconda3/envs/py38/lib/python3.8/site-packages/pyspark/sql/session.py", line 894, in createDataFrame return self._create_dataframe( File "/Users/pgt0409/opt/anaconda3/envs/py38/lib/python3.8/site-packages/pyspark/sql/session.py"..

Data Engineering/Spark

[Spark] pyspark dataframe 생성시 schema data type 설정 방법

2023.01.14

from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [ ('kim', 100), ('kim', 90), ('lee', 80), ('lee', 70), ('park', 60) ] schema = ['name', 'score'] df = spark.createDataFrame(data = data, schema = schema) df.printSchema() df.show..

Data Engineering/Spark

[Spark] pyspark dataframe 의 특정 열을 list로 만드는 방법

2023.01.14

from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [ ('kim', 100), ('kim', 90), ('lee', 80), ('lee', 70), ('park', 60) ] schema = StructType([ \ StructField('name', StringType(), True), \ StructField('score', IntegerType(), True)..

Data Engineering/Spark

[Spark] pyspark dataframe을 리스트로 만드는 가장 좋고 빠른 방법

2023.01.14

+-------------------------------------------------------------+---------+-------------+ | Code | 100,000 | 100,000,000 | +-------------------------------------------------------------+---------+-------------+ | df.select("col_name").rdd.flatMap(lambda x: x).collect() | 0.4 | 55.3 | | list(df.select('col_name').toPandas()['col_name']) | 0.4 | 17.5 | | df.select('col_name').rdd.map(lambda row : ro..

Data Engineering/Spark

[Spark] pyspark dataframe 특정 컬럼(열)만 출력하는 방법

2023.01.14

from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType from pyspark.sql.functions import col spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [ ('kim', 100), ('kim', 90), ('lee', 80), ('lee', 70), ('park', 60) ] schema = StructType([ \ StructField('name', StringType(), True), \ Str..

Data Engineering/Spark

[Spark] pyspark dataframe 컬럼을 이용해 연산하는 방법

2023.01.14

from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType from pyspark.sql.functions import col spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [ ('kim', 100), ('kim', 90), ('lee', 80), ('lee', 70), ('park', 60) ] schema = StructType([ \ StructField('name', StringType(), True), \ Str..

Data Engineering/Spark

[Spark] pyspark dataframe을 원하는 열로 groupby 하는 방법

2023.01.14

from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [ ('kim', 'a', 100), ('kim', 'a', 90), ('lee', 'a', 80), ('lee', 'b', 70), ('park', 'b', 60) ] schema = StructType([ \ StructField('name', StringType(), True), \ StructField('cla..

티스토리툴바