개인 일정/공부

개인 일정/공부

AWS 가용영역이란

Amazon Web Services (AWS)에서 가용 영역(Availability Zone)은 데이터 센터와 네트워크 인프라의 물리적인 위치를 나타냅니다. AWS는 여러 지리적 위치에 분산된 데이터 센터를 가지고 있고, 각각의 데이터 센터는 독립적인 전원, 냉각 및 네트워크 인프라를 가지고 있습니다. 이것들은 가용 영역으로 그룹화되어 있습니다. 가용 영역은 서로 물리적으로 격리되어 있기 때문에 하나의 가용 영역에서 문제가 발생해도 다른 가용 영역에서는 영향을 받지 않습니다. 이는 고가용성과 내결함성을 제공하며, 서비스를 지속적으로 제공할 수 있도록 합니다. 가용 영역은 동일한 지역(Region) 내에서 위치하며, 하나의 지역에는 여러 개의 가용 영역이 존재할 수 있습니다. 예를 들어, 미국 동부(Nor..

개인 일정/공부

데이터 엔지니어와 데이터 분석가의 차이

데이터 엔지니어(Data Engineer)와 데이터 분석가(Data Analyst)는 둘 다 데이터 관련 업무를 수행하는 전문가들이지만, 그 역할과 주요 활동은 다르게 구성되어 있습니다. 아래는 두 역할 간의 주요 차이를 설명한 것입니다. ### 데이터 엔지니어(Data Engineer): 1. **데이터 수집 및 저장:** 데이터 엔지니어는 다양한 소스에서 대량의 데이터를 수집하고, 이를 처리하여 데이터 웨어하우스(Data Warehouse) 또는 다른 저장 시스템에 안정적으로 저장합니다. 2. **데이터 파이프라인 개발:** 데이터 엔지니어는 데이터 파이프라인을 구축하여 데이터가 소스에서 목적지로 이동하도록 하는데 중점을 둡니다. 이는 데이터의 추출, 변환, 적재(ETL) 프로세스를 포함합니다. 3...

개인 일정/공부

Hadoop과 Spark의 차이

Hadoop과 Spark는 둘 다 대규모 데이터 처리를 위한 오픈 소스 프레임워크로, 분산 컴퓨팅을 활용하여 대용량 데이터를 효과적으로 처리할 수 있도록 도와줍니다. 그러나 Hadoop과 Spark는 목적, 아키텍처, 작동 방식 등에서 다양한 차이가 있습니다. 1. **목적:** - **Hadoop:** 주로 대용량 데이터의 저장과 분산 처리를 위해 만들어진 분산 파일 시스템인 HDFS(Hadoop Distributed File System)과 데이터 처리를 위한 MapReduce 프로그래밍 모델을 제공합니다. - **Spark:** 빠른 데이터 처리와 다양한 데이터 처리 작업을 위한 통합 프레임워크로, 배치 처리, 반복적인 알고리즘, 실시간 스트리밍 등 다양한 작업을 지원합니다. 2. **처리 모델:*..

개인 일정/공부

파이썬 인터프리터 종류

파이썬 인터프리터는 파이썬 프로그램을 실행하는 데 사용되는 도구로, 파이썬 코드를 해석하고 실행하는 역할을 합니다. 다양한 파이썬 인터프리터가 있으며, 각각의 특징과 용도가 조금씩 다를 수 있습니다. 일반적으로 사용되는 파이썬 인터프리터 몇 가지를 소개하겠습니다. 1. **CPython:** - CPython은 가장 널리 사용되는 파이썬 인터프리터로, 파이썬의 공식 구현체입니다. - C 언어로 작성되어 있으며, C 언어의 확장성과 함께 파이썬의 간결한 문법을 제공합니다. - 대부분의 파이썬 패키지와 라이브러리가 CPython을 기반으로 개발되기 때문에, 대다수의 파이썬 프로젝트에서 기본적으로 사용됩니다. 2. **Jython:** - Jython은 자바 플랫폼 위에서 동작하는 파이썬 인터프리터입니다. -..

개인 일정/공부

라이브러리와 모듈의 차이

라이브러리와 모듈은 프로그래밍에서 사용되는 용어로, 코드를 구조화하고 재사용 가능하게 만드는 데 도움을 주는 요소입니다. 그러나 이 둘은 약간의 차이가 있습니다. 1. **모듈(Module):** - 모듈은 단일 파일 안에 코드를 구성하고, 관련된 변수, 함수 및 클래스들을 모아놓은 단위입니다. - 파이썬에서는 .py 파일이 하나의 모듈을 나타냅니다. 이 파일에는 함수, 변수, 클래스 등이 정의될 수 있습니다. - 모듈은 다른 모듈에서 임포트하여 사용할 수 있습니다. - 예를 들어, "math" 모듈은 수학 관련 함수들을 포함하고 있습니다. 다른 파이썬 파일에서 이 모듈을 임포트하면, 그 파일에서 math 모듈의 함수들을 사용할 수 있습니다. ```python # 모듈 사용 예제 import math r..

개인 일정/공부

테스트코드란?

테스트코드란? 테스트 코드(Test Code)는 소프트웨어 개발에서 작성된 코드가 기대한 대로 작동하는지 확인하는 데 사용되는 코드입니다. 테스트 코드는 소프트웨어의 품질을 유지하고 향상시키는 데 도움이 되며, 코드 변경 시에 예상치 못한 버그를 방지하고 코드의 신뢰성을 확보하는 데 중요합니다. 테스트 코드는 주로 다음과 같은 목적으로 작성됩니다: 1. **기능 검증:** 코드가 의도한 대로 작동하는지 확인합니다. 2. **회귀 테스트:** 새로운 변경사항이나 기능 추가로 인해 기존 코드에 문제가 발생하지 않는지 확인합니다. 3. **유지보수 용이성:** 코드 변경이나 확장이 있을 때, 기존 코드가 여전히 정상적으로 작동하는지 확인합니다. 테스트 코드는 보통 두 가지 주요 유형으로 나눌 수 있습니다: 1..

개인 일정/공부

Apache Airflow 란?

Apache Airflow 란 Apache Airflow는 데이터 파이프라인을 조율하고 스케줄링하는 오픈 소스 플랫폼입니다. Airflow는 워크플로우를 정의하고 관리하며, 이를 실행하고 모니터링할 수 있는 강력한 도구를 제공합니다. 데이터 엔지니어링, 데이터 사이언스, 비즈니스 인텔리전스 등 다양한 분야에서 사용됩니다. 다음은 Apache Airflow의 주요 특징과 구성 요소에 대한 간단한 설명입니다: 1. **DAGs (Directed Acyclic Graphs):** Airflow에서 작업 흐름은 Directed Acyclic Graphs(DAGs)로 정의됩니다. DAG는 노드와 간선으로 이루어진 그래프로, 각 노드는 작업을 나타내며, 간선은 작업 간의 의존성을 나타냅니다. 2. **Operat..

개인 일정/공부

데이터 웨어하우스란?

데이터 웨어하우스란? 데이터 웨어하우스(Data Warehouse)는 기업이나 조직에서 다양한 소스에서 추출한 데이터를 통합하고 저장하여 의사 결정 지원을 위한 통합된 비즈니스 인텔리전스(Business Intelligence)를 제공하는 중앙 데이터 저장소입니다. 데이터 웨어하우스는 대량의 데이터를 분석하고 쿼리할 수 있도록 구성되어 있어, 전략적이고 효과적인 의사 결정을 돕는 데 사용됩니다. 다음은 데이터 웨어하우스의 주요 특징과 기능입니다: 1. **데이터 통합**: 데이터 웨어하우스는 다양한 소스에서 추출한 데이터를 통합하여 일관된 형식으로 저장합니다. 이는 여러 시스템에서 비롯된 데이터의 일관성을 유지하고 중복을 제거함으로써 데이터의 품질을 향상시킵니다. 2. **시간 축적**: 데이터 웨어하우..

개인 일정/공부

데이터 레이크란

데이터 레이크란 데이터 레이크는 대규모의 다양한 원천에서 비정형 및 정형 데이터를 수집하고 저장하는 중앙 데이터 저장소입니다. 이는 데이터를 원시 형태로 보존하여 필요한 경우에 필요한 형태로 가공 및 분석할 수 있는 유연성을 제공합니다. 데이터 레이크는 기존의 데이터 웨어하우스와 구별되는 몇 가지 특징이 있습니다. 1. **다양한 데이터 형태:** 데이터 레이크에는 정형 데이터(테이블 형태의 데이터베이스에서와 같은 구조화된 데이터) 뿐만 아니라 비정형 데이터(텍스트, 이미지, 비디오 등)도 포함될 수 있습니다. 2. **원시 데이터 보존:** 데이터 레이크는 데이터를 가공하지 않고 원시 형태로 저장합니다. 이는 데이터의 손실 없이 여러 형태의 분석 및 처리를 수행할 수 있도록 합니다. 3. **확장성:*..

개인 일정/공부

빅데이터란?

빅데이터란? 빅데이터( Big Data)는 기존 데이터베이스 관리도구로는 처리하기 어려운 대규모의 다양한 종류의 데이터 집합을 지칭하는 용어입니다. 이러한 데이터는 기존의 데이터베이스 시스템이나 분석 도구로는 처리하기 어렵거나 불가능한 규모와 복잡성을 가지고 있습니다. 빅데이터는 주로 다음과 같은 세 가지 특성을 갖고 있습니다: 1. **규모 (Volume):** 빅데이터는 대부분 대량의 데이터를 다룹니다. 이는 테라바이트(TB)에서 페타바이트(PB) 이상의 크기로 나타날 수 있습니다. 대규모의 데이터를 효과적으로 수집, 저장, 처리하려면 특수한 기술과 도구가 필요합니다. 2. **다양성 (Variety):** 빅데이터는 다양한 종류의 데이터를 포함합니다. 구조화된 데이터(예: 관계형 데이터베이스의 테이..

박경태
'개인 일정/공부' 카테고리의 글 목록 (2 Page)