개인 일정/공부

데이터 레이크란

박경태 2023. 11. 26. 21:56

데이터 레이크란

데이터 레이크는 대규모의 다양한 원천에서 비정형 및 정형 데이터를 수집하고 저장하는 중앙 데이터 저장소입니다. 이는 데이터를 원시 형태로 보존하여 필요한 경우에 필요한 형태로 가공 및 분석할 수 있는 유연성을 제공합니다. 데이터 레이크는 기존의 데이터 웨어하우스와 구별되는 몇 가지 특징이 있습니다.

1. **다양한 데이터 형태:** 데이터 레이크에는 정형 데이터(테이블 형태의 데이터베이스에서와 같은 구조화된 데이터) 뿐만 아니라 비정형 데이터(텍스트, 이미지, 비디오 등)도 포함될 수 있습니다.

2. **원시 데이터 보존:** 데이터 레이크는 데이터를 가공하지 않고 원시 형태로 저장합니다. 이는 데이터의 손실 없이 여러 형태의 분석 및 처리를 수행할 수 있도록 합니다.

3. **확장성:** 데이터 레이크는 대량의 데이터를 수용할 수 있도록 설계되어 있습니다. 이는 클라우드 기반의 스토리지를 활용하여 필요에 따라 저장 공간을 늘릴 수 있음을 의미합니다.

4. **비용 효율성:** 데이터 레이크는 비교적 저렴한 스토리지 옵션을 사용하여 데이터를 저장하므로 비용 효율적입니다.

5. **스키마 온 디맨드:** 데이터 레이크는 스키마를 사전에 정의하지 않고도 데이터를 저장할 수 있습니다. 이는 데이터를 수집하는 동안 스키마를 유연하게 변경할 수 있음을 의미합니다.

6. **다양한 분석 도구 지원:** 데이터 레이크는 다양한 분석 도구와 플랫폼에서 활용될 수 있습니다. 이는 다양한 형태의 데이터를 분석하고 효과적인 인사이트를 도출하는 데 도움이 됩니다.

데이터 레이크는 기업이 대규모 및 다양한 데이터를 효과적으로 관리하고 활용할 수 있게 해주는 중요한 데이터 아키텍처 중 하나입니다.

 

데이터 웨어하우스란

데이터 웨어하우스(Data Warehouse)는 기업이나 조직이 여러 소스에서 추출한 대규모의 데이터를 통합하고 저장하는 중앙 데이터 저장소를 말합니다. 데이터 웨어하우스는 주로 의사결정 지원 시스템에서 사용되며, 데이터를 기반으로 한 비즈니스 인텔리전스(Business Intelligence, BI) 및 분석 작업에 활용됩니다.

다음은 데이터 웨어하우스의 주요 특징과 목적입니다:

1. **통합된 데이터:** 데이터 웨어하우스는 여러 소스에서 추출한 데이터를 통합하여 일관된 형식으로 저장합니다. 이를 통해 데이터의 일관성과 정확성을 유지하고 데이터의 중복을 방지합니다.

2. **시간 축적 데이터:** 데이터 웨어하우스는 시간에 따른 데이터의 변경을 추적할 수 있습니다. 이는 역사적 데이터 추적과 트렌드 분석에 도움이 됩니다.

3. **의사결정 지원:** 데이터 웨어하우스는 의사결정을 지원하기 위한 데이터를 제공합니다. 비즈니스 인텔리전스 도구를 활용하여 데이터를 쿼리하고 분석함으로써 기업이 전략적이고 효율적인 의사결정을 내리도록 돕습니다.

4. **주제 지향적:** 데이터 웨어하우스는 특정 주제나 업무 영역에 관한 데이터를 중심으로 구성됩니다. 예를 들어, 판매, 마케팅, 재무 등과 같은 주제 중심의 데이터 웨어하우스가 구성될 수 있습니다.

5. **데이터 큐브 및 집계:** 데이터 웨어하우스는 데이터 큐브와 같은 다양한 집계 기술을 활용하여 데이터를 다양한 각도에서 분석할 수 있는 기능을 제공합니다.

6. **성능 최적화:** 대규모의 데이터를 다루는 데이터 웨어하우스는 성능을 최적화하기 위해 인덱싱, 파티셔닝 등의 기술을 사용합니다.

데이터 웨어하우스는 기업의 의사결정 과정에서 중요한 역할을 하며, 정제된 데이터를 통해 기업이 비즈니스 인텔리전스를 구축하고 전략을 수립하는 데 도움을 줍니다.