Data Engineering

Data Engineering/Airflow

[Airflow] DAG파일 실행시 MetaDB 확인

dag 파일이름 : 1_python_operator dag에는 6개의 task가 있고, 2번 실행했다. select * from dag_run

Data Engineering/Airflow

[Airflow] DAG파일 등록시 MetaDB 확인

등록한 DAG이름 : 1_python_operator select * from dag

Data Engineering/Airflow

[Airflow] 임의의 DAG 실행시 Flower 상태 확인

1_python_operator 라는 DAG가 있고, 6개의 task를 갖고있다. 6개의 task 이름은 print_1 ~ print_6 이고, 두번 실행했을 때 flower web을 확인해보자 task의 uuid를 클릭하면 다음과 같은 화면을 볼 수 있다.

Data Engineering/Airflow

[Airflow] 에어플로우 이미지에 패키지 업데이트시 이미지 크기 비교

업데이트 x FROM apache/airflow:2.4.1-python3.8 USER root COPY ./entrypoint.sh /home/entrypoint.sh ENTRYPOINT ["/usr/bin/dumb-init", "--", "/home/entrypoint.sh"] 업데이트 o FROM apache/airflow:2.4.1-python3.8 USER root RUN apt-get update COPY ./entrypoint.sh /home/entrypoint.sh ENTRYPOINT ["/usr/bin/dumb-init", "--", "/home/entrypoint.sh"]

Data Engineering/Airflow

[Airflow] 비밀번호 입력 없이 sudo 명령어 사용하는 방법

apt-get install sudo -y echo 'airflow ALL=NOPASSWD: ALL' >> /etc/sudoers echo '사용자명 ALL=NOPASSWD: ALL' >> /etc/sudoers

Data Engineering/Airflow

[Airflow] pip 업데이트 하는 방법

python -m pip install --upgrade pip

Data Engineering/Airflow

[Airflow] 아파치 에어플로우는 워커간의 코드를 동기화 하는 기능이 없다.

아파치 에어플로우는 워커간의 코드를 동기화 하는 기능이 없다. 에어플로우의 워커는 복수개를 설정할 수 있다. 에어플로우 워커가 1개라면 해당 워커에 내가 원하는 DAG 코드를 업데이트 후 DAG를 실행해야 된다. 간단하게 설명하면 다음과 같다. 1. 에어플로우 워커 실행 2. 해당 워커 컨테이너에 원하는 실행할 DAG 코드 업데이트 하기 3. 워커 컨테이너에 넣은 DAG 실행 워커가 2개라고 가정해보자. 워커가 두개라면 어느 워커에 DAG를 업데이트 시켜야될까. 결론은 두 워커 컨테이너 모두에 같은 DAG 파일을 업데이트 해야된다. 두개의 워커 컨테이너 이름을 A 워커, B 워커라고 할 때의 작업은 다음과 같다. 1. 에어플로우 워커 A, 워커 B 실행 2. 실행할 DAG 코드를 워커 A 에 적재 3. ..

Data Engineering/AI

[ML] 경사하강법(Gradient Descent) 이란?

경사하강법이란? - 경사하강법은 머신러닝, 딥러닝에서 알고리즘을 훈련시킬 때 많이 사용됨 선형회귀란? - 선형적으로 분포된 데이터를 가장 잘 나타낼 수 있는 일차함수를 찾는 것 - 최적의 기울기와 y절편을 찾기 위해 사용되는 것이 경사하강법 경사하강법 의미? - 함수 값이 낮아지는 방향으로 독립 변수의 값을 변경시켜 최종적으로 최소 함수를 갖도록 하는 독립변수의 값을 찾는 방법 경사하강법 목적? - 함수의 최소값을 찾는 문제 경사하강법 사용하는 이유? - 함수의 미분계수가 0인 지점을 최대값 또는 최소값으로 확인하면 되지만, 머신러닝, 딥러닝에서의 함수는 굉장히 복잡해 근을 계산하기 어려움 경사하강법 순서 - 각 데이터 사이의 평균제곱오차(MSE) 를 구함 - 이 평균제곱오차를 비용함수라고 한다 - 비용..

Data Engineering/AI

[AI, ML, DL] 선형함수, 비선형함수란?

선형함수 - 그래프가 직선의 형태 비선형함수 - 그래프가 직선의 형태가 아닌 것

Data Engineering/AI

[AI, ML, DL] 단층 퍼셉트론이 동작하는 방식

입력 데이터A > 뉴런A 입력 데이터B > 뉴런A 뉴런 = (입력데이터A * 가중치A) + (입력데이터B * 가중치B) + 편향 -> 활성화함수 -> 활성/비활성 1. 뉴런에 들어온 여러 입력데이터의 가중합을 구함 2. 그 가중합을 활성화 함수의 임계치와 비교 3. 임계치보다 크면 그 뉴런은 활성화, 임계치보다 작으면 그 뉴런은 비활성화

박경태
'Data Engineering' 카테고리의 글 목록 (10 Page)