Data Engineering

Data Engineering/Airflow

[Airflow] MetaDB에서 task 실행기록 확인하는 방법

1_python_operator 라는 dag를 2번 실행시켰고, task는 6개가 있다. select * from task_instance

Data Engineering/Airflow

[Airflow] DAG 추가시 MetaDB 변경사항 확인

기존 dag 는 1_python_operator 이고, 추가된 dag 는 2_python_operator 이다. 메타DB를 확인해보자 select * from dag select * from dag_code

Data Engineering/Airflow

[Airflow] DAG파일 실행시 MetaDB 확인

dag 파일이름 : 1_python_operator dag에는 6개의 task가 있고, 2번 실행했다. select * from dag_run

Data Engineering/Airflow

[Airflow] DAG파일 등록시 MetaDB 확인

등록한 DAG이름 : 1_python_operator select * from dag

Data Engineering/Airflow

[Airflow] 임의의 DAG 실행시 Flower 상태 확인

1_python_operator 라는 DAG가 있고, 6개의 task를 갖고있다. 6개의 task 이름은 print_1 ~ print_6 이고, 두번 실행했을 때 flower web을 확인해보자 task의 uuid를 클릭하면 다음과 같은 화면을 볼 수 있다.

Data Engineering/Airflow

[Airflow] 에어플로우 이미지에 패키지 업데이트시 이미지 크기 비교

업데이트 x FROM apache/airflow:2.4.1-python3.8 USER root COPY ./entrypoint.sh /home/entrypoint.sh ENTRYPOINT ["/usr/bin/dumb-init", "--", "/home/entrypoint.sh"] 업데이트 o FROM apache/airflow:2.4.1-python3.8 USER root RUN apt-get update COPY ./entrypoint.sh /home/entrypoint.sh ENTRYPOINT ["/usr/bin/dumb-init", "--", "/home/entrypoint.sh"]

Data Engineering/Airflow

[Airflow] 비밀번호 입력 없이 sudo 명령어 사용하는 방법

apt-get install sudo -y echo 'airflow ALL=NOPASSWD: ALL' >> /etc/sudoers echo '사용자명 ALL=NOPASSWD: ALL' >> /etc/sudoers

Data Engineering/Airflow

[Airflow] pip 업데이트 하는 방법

python -m pip install --upgrade pip

Data Engineering/Airflow

[Airflow] 아파치 에어플로우는 워커간의 코드를 동기화 하는 기능이 없다.

아파치 에어플로우는 워커간의 코드를 동기화 하는 기능이 없다. 에어플로우의 워커는 복수개를 설정할 수 있다. 에어플로우 워커가 1개라면 해당 워커에 내가 원하는 DAG 코드를 업데이트 후 DAG를 실행해야 된다. 간단하게 설명하면 다음과 같다. 1. 에어플로우 워커 실행 2. 해당 워커 컨테이너에 원하는 실행할 DAG 코드 업데이트 하기 3. 워커 컨테이너에 넣은 DAG 실행 워커가 2개라고 가정해보자. 워커가 두개라면 어느 워커에 DAG를 업데이트 시켜야될까. 결론은 두 워커 컨테이너 모두에 같은 DAG 파일을 업데이트 해야된다. 두개의 워커 컨테이너 이름을 A 워커, B 워커라고 할 때의 작업은 다음과 같다. 1. 에어플로우 워커 A, 워커 B 실행 2. 실행할 DAG 코드를 워커 A 에 적재 3. ..

박경태
'Data Engineering' 카테고리의 글 목록 (8 Page)