Data Engineering/Spark
2023.01.14
from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType from pyspark.sql.functions import col spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [ ('kim', 100), ('kim', 90), ('lee', 80), ('lee', 70), ('park', 60) ] schema = StructType([ \ StructField('name', StringType(), True), \ Str..
Data Engineering/Spark
2023.01.14
from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType from pyspark.sql.functions import col spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [ ('kim', 100), ('kim', 90), ('lee', 80), ('lee', 70), ('park', 60) ] schema = StructType([ \ StructField('name', StringType(), True), \ Str..
Data Engineering/Spark
2023.01.14
from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [ ('kim', 'a', 100), ('kim', 'a', 90), ('lee', 'a', 80), ('lee', 'b', 70), ('park', 'b', 60) ] schema = StructType([ \ StructField('name', StringType(), True), \ StructField('cla..
Data Engineering/Spark
2023.01.14
from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [ ("kim", 100), ("kim", 90), ("lee", 80), ("lee", 70), ('park', 60) ] schema = StructType([ \ StructField('name', StringType(),True), \ StructField('score', IntegerType(),True) ]..
Data Engineering/Spark
2023.01.14
from pyspark.sql import SparkSession, Row spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [Row(id = 0, name = 'park', score = 100), Row(id = 1, name = 'lee', score = 90), Row(id = 2, name = 'kim', score = 80)] df = spark.createDataFrame(data) df.show()
Data Engineering/Spark
2023.01.14
import pandas as pd from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() df_pandas = pd.DataFrame({ 'id': [0, 1, 2, 3, 4], 'name': ['kim', 'kim', 'park', 'park', 'lee'], 'score': [100, 90, 80, 70, 60] }) df_spark = spark.createDataFrame(df_pandas) print(df_pandas) df_spark.show()
Operating System/Linux
2023.01.14
모든 패키지 버전 업그레이드 명령어 brew upgrade brew list를 한번 보자 brew list brew update는 Formulae의 버전만 최신으로 업데이트 된다 Casks도 같이 업데이트를 하고 싶다면 다음 명령어를 사용해보자. brew upgrade --greedy
Data Engineering/Airflow
2023.01.09
1. 언제, 어디에서, 어떻게, 왜 데이터를 수집할 것인가에 대한 고민 필요 2. 데이터 파이프라인 구축시 수동작업 제거 필요 3. 데이터가 흐르도록 만들어야 함 4. 데이터 파이프라인 구축은 추출, 변경, 결합, 검증, 적재 과정을 자동화하는 것 5. 여러 데이터 스트림을 한번에 처리가 가능해야 함 6. ETL은 추출, 변환, 적재의 줄임말 7. 데이터 파이프라인은 ETL을 포함하는 광범위한 말
Operating System/Linux
2023.01.08
- 초기 리눅스는 주로 서버 운영체제로 사용 - 유닉스를 대체하는 운영체제로 대두 - 리눅스 운영체제의 사용은 증가하고 있으나, 상용 리눅스 운영체제의 사용은 감소 활용 분야 - 서버 - 리눅스 관련 개발용 서버 사용자마다 개별적으로 접속하여 사용할 수 있음 개발환경에 최적화 돼 있고 편리함 - 다양한 서버들이 기본적으로 탑재됨 Apache, FTP, SSH, DB 등 - 테스크탑과 개발 - 리눅스 매니아들과 해커, 파워 유저들에 의해 많이 사용됨 - 다양한 배포판 존재하여 데스크탑용 배포판이 명확하지 않음 - 기술지원을 제공받지 못함 - 기본적으로 웹 브라우저, 오피스, 이미지 편집 프로그램, 음성/영샹 재생 프로그램 등이 제공됨 - 임베디드 - 리눅스 기반으로 만든 모바일 운영체제인 안드로이드는 애플..