개인 일정/공부

데이터 웨어하우스란?

박경태 2023. 12. 3. 22:42

 

데이터 웨어하우스란?

데이터 웨어하우스(Data Warehouse)는 기업이나 조직에서 다양한 소스에서 추출한 데이터를 통합하고 저장하여 의사 결정 지원을 위한 통합된 비즈니스 인텔리전스(Business Intelligence)를 제공하는 중앙 데이터 저장소입니다. 데이터 웨어하우스는 대량의 데이터를 분석하고 쿼리할 수 있도록 구성되어 있어, 전략적이고 효과적인 의사 결정을 돕는 데 사용됩니다.

다음은 데이터 웨어하우스의 주요 특징과 기능입니다:

1. **데이터 통합**: 데이터 웨어하우스는 다양한 소스에서 추출한 데이터를 통합하여 일관된 형식으로 저장합니다. 이는 여러 시스템에서 비롯된 데이터의 일관성을 유지하고 중복을 제거함으로써 데이터의 품질을 향상시킵니다.

2. **시간 축적**: 데이터 웨어하우스는 시간에 따른 데이터의 변화를 추적하고 저장할 수 있습니다. 이를 통해 사용자는 과거의 데이터 추이를 분석하고 미래의 트렌드를 예측하는 데 도움을 받을 수 있습니다.

3. **쿼리와 분석**: 데이터 웨어하우스는 복잡한 쿼리와 분석 작업을 수행할 수 있는 기능을 제공합니다. 사용자는 데이터를 검색하고 다양한 차원에서의 비즈니스 성과를 측정할 수 있습니다.

4. **비즈니스 인텔리전스**: 데이터 웨어하우스는 비즈니스 인텔리전스 도구와 통합되어 조직 내에서 의사 결정에 필요한 정보를 시각적으로 제공합니다. 리포팅, 대시보드, 데이터 시각화 등을 통해 사용자는 데이터를 이해하고 활용할 수 있습니다.

5. **보안과 안정성**: 데이터 웨어하우스는 민감한 비즈니스 데이터를 안전하게 보호하기 위한 보안 기능을 제공합니다. 접근 권한 제어, 데이터 암호화, 감사 추적 등의 기능이 사용자에게 안전한 데이터 환경을 제공합니다.

6. **ETL 프로세스**: 데이터 웨어하우스는 추출(Extract), 변환(Transform), 적재(Load)를 수행하는 ETL 프로세스를 통해 데이터를 효과적으로 수집하고 저장합니다. 이를 통해 데이터의 일관성과 정확성을 유지할 수 있습니다.

많은 기업이 데이터 웨어하우스를 활용하여 기업 전략 수립, 성과 분석, 마케팅 전략 등 다양한 의사 결정 활동을 지원하고 있습니다.

 

데이터 웨어하우스와 데이터 레이크의 차이?

데이터 레이크(Data Lake)와 데이터 웨어하우스(Data Warehouse)는 모두 기업이 데이터를 효과적으로 관리하고 분석하기 위한 데이터 아키텍처의 한 형태로서 사용됩니다. 그러나 두 개념은 목적, 구조, 데이터 처리 방식 등에서 차이가 있습니다.

### 1. 목적:

- **데이터 레이크(Data Lake):**
  - 데이터 레이크는 다양한 유형과 형식의 대량의 원천 데이터를 저장하는 중앙화된 저장소입니다.
  - 주로 원천 시스템에서 추출된 Raw 데이터를 보관하며, 데이터의 형태나 스키마에 대한 변환이나 가공을 최소화합니다.
  - 비정형 데이터, 반정형 데이터, 정형 데이터 등 모든 종류의 데이터를 수용합니다.

- **데이터 웨어하우스(Data Warehouse):**
  - 데이터 웨어하우스는 조직의 비즈니스 인텔리전스(Business Intelligence) 및 의사 결정 지원을 위한 데이터를 중심적으로 저장하는 시스템입니다.
  - 데이터 웨어하우스는 통합된, 정제된, 구조화된 데이터를 제공하여 사용자가 더 빠르게 쿼리하고 분석할 수 있도록 합니다.
  - 보통 데이터 레이크에 저장된 Raw 데이터를 가공하여 비즈니스 요구에 맞는 형태로 변환한 후 저장합니다.

### 2. 데이터 구조와 처리:

- **데이터 레이크(Data Lake):**
  - 스키마가 유연하거나 동적이며, 데이터의 형태나 구조가 나중에 정의될 수 있습니다.
  - 원천 데이터를 그대로 보관하므로 초기에는 가공이나 정제되지 않은 Raw 데이터가 포함됩니다.
  - 주로 Hadoop Distributed File System (HDFS), Amazon S3, Azure Data Lake Storage 등의 분산 파일 시스템을 사용합니다.

- **데이터 웨어하우스(Data Warehouse):**
  - 스키마가 엄격하게 정의되어 있으며, 데이터는 특정 형식에 맞추어 저장됩니다.
  - 주로 정제된 데이터를 중심으로 저장하며, ETL(추출, 변환, 적재) 프로세스를 통해 가공된 후 저장됩니다.
  - 주로 관계형 데이터베이스 시스템을 사용하며, 효율적인 쿼리 작업을 지원합니다.

### 3. 사용 사례:

- **데이터 레이크(Data Lake):**
  - 대량의 원천 데이터를 저장하고, 필요한 경우에 데이터를 가공하거나 스키마를 적용하여 활용합니다.
  - 머신러닝 및 고급 분석, 대규모 데이터 처리와 같은 유연한 분석 작업에 적합합니다.

- **데이터 웨어하우스(Data Warehouse):**
  - 비즈니스 리포팅, 대시보드, 표준 분석 작업과 같은 전통적인 비즈니스 인텔리전스 요구사항에 적합합니다.
  - 정형화된 데이터를 통합하여 의사 결정 지원을 위한 높은 수준의 성능을 제공합니다.

종합적으로, 데이터 레이크는 원천 데이터를 저장하고 가공하는 유연한 저장소로서의 역할을 하며, 데이터 웨어하우스는 가공된 데이터를 중심으로 한 비즈니스 인텔리전스를 지원하는 저장소로서의 역할을 합니다. 많은 기업은 두 가지 아키텍처를 조합하여 종합적인 데이터 관리 및 분석 전략을 구축하기도 합니다.

 

브론즈, 실버, 골드 데이터란?

"브론즈(Bronze)", "실버(Silver)", "골드(Gold)"라는 용어는 주로 데이터 엔지니어링 및 데이터 아키텍처에서 사용되며, 데이터의 품질과 가공 수준을 나타내는 데에 쓰입니다. 아래는 이 세 가지 데이터 유형에 대한 일반적인 설명입니다:

1. **브론즈(Bronze) 데이터:**
   - 브론즈 데이터는 가공되지 않은(raw) 원시 데이터를 나타냅니다.
   - 데이터 레이크나 다른 중앙 데이터 저장소에 원본 데이터를 저장하는 단계로, 데이터의 수집된 형태를 그대로 보관합니다.
   - 스키마나 형식에 대한 엄격한 제한이 없으며, 다양한 소스에서 추출된 데이터를 수용합니다.

2. **실버(Silver) 데이터:**
   - 실버 데이터는 브론즈 데이터를 가공하여 정제한 형태로, 데이터의 일관성과 구조를 갖추고 있는 데이터를 나타냅니다.
   - 스키마가 더 엄격하게 정의되고, 중복이 제거되며, 데이터의 일관성과 정확성이 향상됩니다.
   - 데이터 고질적인 문제들이 해결되어 비즈니스 요구에 더 적합한 형태로 가공됩니다.

3. **골드(Gold) 데이터:**
   - 골드 데이터는 최종적으로 완전히 가공되고, 비즈니스 규칙에 따라 정의된 스키마와 형식을 갖춘 데이터를 나타냅니다.
   - 골드 데이터는 비즈니스 분석, 리포팅, 머신러닝 등의 용도로 사용될 수 있도록 최적화되어 있습니다.
   - 이 데이터는 가장 높은 수준의 신뢰성과 일관성을 보장하며, 조직 내에서의 의사 결정에 활용됩니다.

이러한 데이터 유형은 데이터 파이프라인에서 원천 데이터에서부터 최종 사용 가능한 데이터까지의 다양한 가공 단계를 나타냅니다. 브론즈에서 골드로의 전환은 데이터 품질과 가치를 향상시키는 데 중요한 역할을 합니다.