아나콘다 가상환경 리스트 확인
conda env list
python 가상환경 만들기
conda create -n py38 python==3.8 -y
가상환경 리스트 확인
conda env list
가상환경 접속 후 리스트 확인
conda activate py38
conda env list
pyspark 3.3.1 설치
conda install -c conda-forge pyspark==3.3.1 -y
라이브러리 리스트 확인
pip list
간단한 pyspark 코드 실행해보기
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
spark = SparkSession \
.builder \
.master('local') \
.appName('my_pyspark_app') \
.getOrCreate()
data = [
('kim', 100),
('kim', 90),
('lee', 80),
('lee', 70),
('park', 60)
]
schema = StructType([ \
StructField('name', StringType(),True), \
StructField('score', IntegerType(),True)
])
df = spark.createDataFrame(data = data, schema = schema)
df.printSchema()
df.show()
'Data Engineering > Spark' 카테고리의 다른 글
[Spark] Spark Executor 란 무엇일까 (2) | 2023.12.30 |
---|---|
[Spark] 스파크란 무엇인가? (0) | 2023.04.21 |
[Spark] ValueError: field score: This field is not nullable, but got None (0) | 2023.01.14 |
[Spark] pyspark dataframe 생성시 schema data type 설정 방법 (0) | 2023.01.14 |
[Spark] pyspark dataframe 의 특정 열을 list로 만드는 방법 (0) | 2023.01.14 |