데이터 엔지니어

개인 일정/공부

라이브러리와 모듈의 차이

라이브러리와 모듈은 프로그래밍에서 사용되는 용어로, 코드를 구조화하고 재사용 가능하게 만드는 데 도움을 주는 요소입니다. 그러나 이 둘은 약간의 차이가 있습니다. 1. **모듈(Module):** - 모듈은 단일 파일 안에 코드를 구성하고, 관련된 변수, 함수 및 클래스들을 모아놓은 단위입니다. - 파이썬에서는 .py 파일이 하나의 모듈을 나타냅니다. 이 파일에는 함수, 변수, 클래스 등이 정의될 수 있습니다. - 모듈은 다른 모듈에서 임포트하여 사용할 수 있습니다. - 예를 들어, "math" 모듈은 수학 관련 함수들을 포함하고 있습니다. 다른 파이썬 파일에서 이 모듈을 임포트하면, 그 파일에서 math 모듈의 함수들을 사용할 수 있습니다. ```python # 모듈 사용 예제 import math r..

개인 일정/공부

테스트코드란?

테스트코드란? 테스트 코드(Test Code)는 소프트웨어 개발에서 작성된 코드가 기대한 대로 작동하는지 확인하는 데 사용되는 코드입니다. 테스트 코드는 소프트웨어의 품질을 유지하고 향상시키는 데 도움이 되며, 코드 변경 시에 예상치 못한 버그를 방지하고 코드의 신뢰성을 확보하는 데 중요합니다. 테스트 코드는 주로 다음과 같은 목적으로 작성됩니다: 1. **기능 검증:** 코드가 의도한 대로 작동하는지 확인합니다. 2. **회귀 테스트:** 새로운 변경사항이나 기능 추가로 인해 기존 코드에 문제가 발생하지 않는지 확인합니다. 3. **유지보수 용이성:** 코드 변경이나 확장이 있을 때, 기존 코드가 여전히 정상적으로 작동하는지 확인합니다. 테스트 코드는 보통 두 가지 주요 유형으로 나눌 수 있습니다: 1..

개인 일정/공부

Apache Airflow 란?

Apache Airflow 란 Apache Airflow는 데이터 파이프라인을 조율하고 스케줄링하는 오픈 소스 플랫폼입니다. Airflow는 워크플로우를 정의하고 관리하며, 이를 실행하고 모니터링할 수 있는 강력한 도구를 제공합니다. 데이터 엔지니어링, 데이터 사이언스, 비즈니스 인텔리전스 등 다양한 분야에서 사용됩니다. 다음은 Apache Airflow의 주요 특징과 구성 요소에 대한 간단한 설명입니다: 1. **DAGs (Directed Acyclic Graphs):** Airflow에서 작업 흐름은 Directed Acyclic Graphs(DAGs)로 정의됩니다. DAG는 노드와 간선으로 이루어진 그래프로, 각 노드는 작업을 나타내며, 간선은 작업 간의 의존성을 나타냅니다. 2. **Operat..

개인 일정/공부

데이터 웨어하우스란?

데이터 웨어하우스란? 데이터 웨어하우스(Data Warehouse)는 기업이나 조직에서 다양한 소스에서 추출한 데이터를 통합하고 저장하여 의사 결정 지원을 위한 통합된 비즈니스 인텔리전스(Business Intelligence)를 제공하는 중앙 데이터 저장소입니다. 데이터 웨어하우스는 대량의 데이터를 분석하고 쿼리할 수 있도록 구성되어 있어, 전략적이고 효과적인 의사 결정을 돕는 데 사용됩니다. 다음은 데이터 웨어하우스의 주요 특징과 기능입니다: 1. **데이터 통합**: 데이터 웨어하우스는 다양한 소스에서 추출한 데이터를 통합하여 일관된 형식으로 저장합니다. 이는 여러 시스템에서 비롯된 데이터의 일관성을 유지하고 중복을 제거함으로써 데이터의 품질을 향상시킵니다. 2. **시간 축적**: 데이터 웨어하우..

개인 일정/공부

데이터 레이크란

데이터 레이크란 데이터 레이크는 대규모의 다양한 원천에서 비정형 및 정형 데이터를 수집하고 저장하는 중앙 데이터 저장소입니다. 이는 데이터를 원시 형태로 보존하여 필요한 경우에 필요한 형태로 가공 및 분석할 수 있는 유연성을 제공합니다. 데이터 레이크는 기존의 데이터 웨어하우스와 구별되는 몇 가지 특징이 있습니다. 1. **다양한 데이터 형태:** 데이터 레이크에는 정형 데이터(테이블 형태의 데이터베이스에서와 같은 구조화된 데이터) 뿐만 아니라 비정형 데이터(텍스트, 이미지, 비디오 등)도 포함될 수 있습니다. 2. **원시 데이터 보존:** 데이터 레이크는 데이터를 가공하지 않고 원시 형태로 저장합니다. 이는 데이터의 손실 없이 여러 형태의 분석 및 처리를 수행할 수 있도록 합니다. 3. **확장성:*..

개인 일정/공부

빅데이터란?

빅데이터란? 빅데이터( Big Data)는 기존 데이터베이스 관리도구로는 처리하기 어려운 대규모의 다양한 종류의 데이터 집합을 지칭하는 용어입니다. 이러한 데이터는 기존의 데이터베이스 시스템이나 분석 도구로는 처리하기 어렵거나 불가능한 규모와 복잡성을 가지고 있습니다. 빅데이터는 주로 다음과 같은 세 가지 특성을 갖고 있습니다: 1. **규모 (Volume):** 빅데이터는 대부분 대량의 데이터를 다룹니다. 이는 테라바이트(TB)에서 페타바이트(PB) 이상의 크기로 나타날 수 있습니다. 대규모의 데이터를 효과적으로 수집, 저장, 처리하려면 특수한 기술과 도구가 필요합니다. 2. **다양성 (Variety):** 빅데이터는 다양한 종류의 데이터를 포함합니다. 구조화된 데이터(예: 관계형 데이터베이스의 테이..

개인 일정/공부

파이썬 코드 정규화란

파이썬 코드 정규화란? 파이썬 코드 정규화는 코드를 일관된 형식으로 표준화하고 가독성을 높이기 위한 프로세스입니다. 이는 코드를 더 쉽게 이해하고 유지보수하기 위한 목적으로 수행됩니다. 코드 정규화는 주로 다음과 같은 측면에서 이루어집니다: 1. **들여쓰기(Indentation):** 파이썬은 들여쓰기를 통해 코드 블록을 나타냅니다. PEP 8 스타일 가이드에 따라 4개의 공백을 사용하는 것이 권장됩니다. 들여쓰기를 통일하면 코드의 가독성이 향상됩니다. ```python # 나쁜 예 def foo(): x = 1 y = 2 return x + y # 좋은 예 def foo(): x = 1 y = 2 return x + y ``` 2. **공백 사용:** 연산자 주변에 공백을 적절하게 사용하여 코드를 더..

개인 일정/공부

데이터 파이프라인이란

데이터 파이프라인이란? 데이터 파이프라인은 데이터를 수집하고 처리하여 분석이나 머신 러닝 모델 학습 등에 활용할 수 있도록 하는 일련의 과정을 의미합니다. 데이터 파이프라인은 데이터 과학 및 머신 러닝 프로젝트에서 중요한 부분이며, 효율적인 데이터 처리 및 관리를 가능하게 합니다. 다음은 데이터 파이프라인의 주요 구성 요소와 각각의 역할에 대한 간단한 설명입니다: 1. **데이터 수집 (Data Collection)**: - 첫 번째 단계는 데이터를 수집하는 것입니다. 데이터는 다양한 소스에서 나올 수 있으며, 외부 데이터베이스, API, 웹 크롤링, 센서, 로그 파일 등을 통해 수집할 수 있습니다. 2. **데이터 전처리 (Data Preprocessing)**: - 수집된 데이터는 종종 불완전하거나 ..

개인 일정/공부

msk란

AWS란? Amazon Web Services (AWS)는 아마존닷컴(Amazon.com)의 자회사로, 클라우드 컴퓨팅 서비스를 제공하는 세계적으로 유명한 기업입니다. AWS는 기업이나 개발자들이 인터넷을 통해 다양한 IT 서비스를 활용할 수 있게 해주며, 이를 통해 자원의 효율성을 높이고 비용을 절감할 수 있습니다. 다음은 AWS의 주요 특징과 서비스 카테고리입니다: 1. **다양한 서비스**: AWS는 컴퓨팅, 데이터베이스, 스토리지, 네트워킹, 머신러닝, 분석 등 다양한 서비스를 제공합니다. 2. **컴퓨팅**: EC2 (Amazon Elastic Compute Cloud)는 가상 서버를 호스팅하고, Lambda는 서버 없는 컴퓨팅 환경을 제공합니다. 3. **스토리지**: S3 (Amazon Si..

Cloud/AWS

[AWS] EC2의 hostname 변경 방법

1. /etc/cloud/cloud.cfg 파일 수정 2. preserve_hostname 을 true 로 변경 3. /etc/hosts 파일 수정 4. localhost 부분을 내가 원하는 이름으로 변경하자. 나는 server1이 맘에듬 5. /etc/hostname 파일을 수정하자 6. 지우고 내가 원하는 이름으로 바꾸자. 나는 server1 7. 서버를 재실행하자. 8. 재접속하면 호스트네임이 변경돼있다. 1. /etc/cloud/cloud.cfg 파일 수정 sudo vi /etc/cloud/cloud.cfg 2. preserve_hostname 을 true 로 변경 3. /etc/hosts 파일 수정 sudo vi /etc/hosts 4. localhost 부분을 내가 원하는 이름으로 변경하자. ..

박경태
'분류 전체보기' 카테고리의 글 목록 (22 Page)