데이터 엔지니어

Data Engineering/Spark

[Spark] pyspark dataframe 특정 컬럼(열)만 출력하는 방법

from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType from pyspark.sql.functions import col spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [ ('kim', 100), ('kim', 90), ('lee', 80), ('lee', 70), ('park', 60) ] schema = StructType([ \ StructField('name', StringType(), True), \ Str..

Data Engineering/Spark

[Spark] pyspark dataframe 컬럼을 이용해 연산하는 방법

from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType from pyspark.sql.functions import col spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [ ('kim', 100), ('kim', 90), ('lee', 80), ('lee', 70), ('park', 60) ] schema = StructType([ \ StructField('name', StringType(), True), \ Str..

Data Engineering/Spark

[Spark] pyspark dataframe을 원하는 열로 groupby 하는 방법

from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [ ('kim', 'a', 100), ('kim', 'a', 90), ('lee', 'a', 80), ('lee', 'b', 70), ('park', 'b', 60) ] schema = StructType([ \ StructField('name', StringType(), True), \ StructField('cla..

Data Engineering/Spark

[Spark] List로 pyspark dataframe 만드는 방법

from pyspark.sql import SparkSession from pyspark.sql.types import StructType, StructField, StringType, IntegerType spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [ ("kim", 100), ("kim", 90), ("lee", 80), ("lee", 70), ('park', 60) ] schema = StructType([ \ StructField('name', StringType(),True), \ StructField('score', IntegerType(),True) ]..

Data Engineering/Spark

[Spark] Row 함수를 이용해서 Pyspark dataframe 만드는 방법

from pyspark.sql import SparkSession, Row spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() data = [Row(id = 0, name = 'park', score = 100), Row(id = 1, name = 'lee', score = 90), Row(id = 2, name = 'kim', score = 80)] df = spark.createDataFrame(data) df.show()

Data Engineering/Spark

[Spark] pandas dataframe을 pyspark dataframe로 변환하는 방법

import pandas as pd from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .master('local') \ .appName('my_pyspark_app') \ .getOrCreate() df_pandas = pd.DataFrame({ 'id': [0, 1, 2, 3, 4], 'name': ['kim', 'kim', 'park', 'park', 'lee'], 'score': [100, 90, 80, 70, 60] }) df_spark = spark.createDataFrame(df_pandas) print(df_pandas) df_spark.show()

Operating System/Linux

[Mac] brew로 설치한 모든 패키지 업그레이드 하는 방법

모든 패키지 버전 업그레이드 명령어 brew upgrade brew list를 한번 보자 brew list brew update는 Formulae의 버전만 최신으로 업데이트 된다 Casks도 같이 업데이트를 하고 싶다면 다음 명령어를 사용해보자. brew upgrade --greedy

Operating System/Linux

[Mac] brew를 최신버전으로 업데이트하는 방법

현재 버전 확인 brew --version brew 업데이트 brew update 다시 현재 버전 확인 brew --version

Data Engineering/Airflow

[Airflow] 데이터 파이프라인이란?

1. 언제, 어디에서, 어떻게, 왜 데이터를 수집할 것인가에 대한 고민 필요 2. 데이터 파이프라인 구축시 수동작업 제거 필요 3. 데이터가 흐르도록 만들어야 함 4. 데이터 파이프라인 구축은 추출, 변경, 결합, 검증, 적재 과정을 자동화하는 것 5. 여러 데이터 스트림을 한번에 처리가 가능해야 함 6. ETL은 추출, 변환, 적재의 줄임말 7. 데이터 파이프라인은 ETL을 포함하는 광범위한 말

Operating System/Linux

[Linux] 리눅스 동향

- 초기 리눅스는 주로 서버 운영체제로 사용 - 유닉스를 대체하는 운영체제로 대두 - 리눅스 운영체제의 사용은 증가하고 있으나, 상용 리눅스 운영체제의 사용은 감소 활용 분야 - 서버 - 리눅스 관련 개발용 서버 사용자마다 개별적으로 접속하여 사용할 수 있음 개발환경에 최적화 돼 있고 편리함 - 다양한 서버들이 기본적으로 탑재됨 Apache, FTP, SSH, DB 등 - 테스크탑과 개발 - 리눅스 매니아들과 해커, 파워 유저들에 의해 많이 사용됨 - 다양한 배포판 존재하여 데스크탑용 배포판이 명확하지 않음 - 기술지원을 제공받지 못함 - 기본적으로 웹 브라우저, 오피스, 이미지 편집 프로그램, 음성/영샹 재생 프로그램 등이 제공됨 - 임베디드 - 리눅스 기반으로 만든 모바일 운영체제인 안드로이드는 애플..

박경태
'분류 전체보기' 카테고리의 글 목록 (36 Page)