数据仓库设计的完整指南

数据仓库设计指南 -  SCIENCESTOFT

Sciencesoft一直在渲染数据仓储服务自2005年以来。

数据仓库 design: the essence

数据仓库提供了用于分析查询和报告的业务数据的集成,结构化和存储。数据仓库设计是第一步实现数据仓库解决方案,它专注于创建数据仓库的体系结构 system.

项目时间:从2 months.

数据仓库 planning steps: 要求工程,发现,数据仓库概念化,项目规划,数据仓库技术选择,系统分析和数据治理设计,数据建模和ETL设计。

成本:从40,000美元开始。

团队:项目经理,商业分析师,数据仓库 系统分析师,一个解决方案架构师,一个数据工程师。

数据仓库 solution architecture

典型的数据仓库 架构包括:

数据源层

- 提供提供进入数据仓库的数据的内部和外部数据源(ERP,CRM,传感器设备,社交媒体,公共数据库等)。

分期区

- 一个临时存储库,其中来自数据源系统的记录会在加载到存储区域之前经过合并和处理。当数据变换进入目标数据库(数据仓库/数据集市)时,可能不存在暂存区域。

数据存储层

- 托管A.数据 warehouse database保持略微和高度结构化数据的永久数据存储,数据 marts - 数据仓库子集提供有关公司特定业务线,部门或团队的报告和分析的信息。

分析和BI

- 数据仓库中的数据 可以通过OLAP工具,数据挖掘工具,报告和可视化工具来查询数据库和数据集市。

样本DWH解决方案架构

数据仓库 design plan

数据仓库 设计过程及其持续时间取决于:

  • 源系统复杂性和质量。
  • 数据分析复杂性。
  • 数据安全复杂性等。

下面,我们列出设计数据仓库解决方案所需的核心步骤。

注意:下面的时间帧高度近似,例如,作为企业级数据仓库的架构设计项目 由于项目规模和特异性,可能持续3-6个月甚至更多。

1

数据仓库 要求工程

2

发现

3

数据仓库 conceptualization

4

数据仓库 设计项目规划

5

数据仓库 技术选择

6

数据仓库 system analysis and data governance design

7

数据仓库 数据建模和ETL / ELT设计

注意:下一步是数据仓库 development并启动,在本指南的框架内未解决。如果您对端到端数据仓库实施过程感兴趣,请探索我们的结构化概述数据仓库实现过程。

设计数据仓库所需的才能

专案经理

端到端数据仓库 设计项目管理:

  • 定义数据仓库 设计项目范围,目标和可交付成果。
  • 开发数据仓库 设计项目计划和通信方法。
  • 传达数据仓库 设计项目目的和对利益相关者的期望。
  • 估计和协调数据仓库的努力 设计项目团队成员。
  • 确保数据仓库的时间表和质量 在集预算框架内设计项目可交付成果。

业务分析师

  • 分析关键利益相关者和最终用户的需求,并将需求转化为数据仓库 影响设计的要求(例如,数据仓库 解决方案应支持运营分析)。
  • 描述了数据仓库的范围 系统,模块和与其他软件的集成。

解决方案架构师

  • 设计数据仓库 基于业务和技术要求的体系结构。
  • 确保在数据仓库中实现了架构要求(可用性,可扩展性,性能,可靠性等) design.
  • 建议技术堆栈。

数据仓库 system analyst

  • 将数据源和数据分析软件(如果有的话)集成到数据仓库中 solution.
  • 提高系统要求规范,用于创建数据模型,设计ETL / ELT流程等。
  • 定义数据完整性和数据清理规则等

数据工程师

  • 设计 数据模型及其结构并绘制数据流。
  • 设计 ETL/ELT processes.

采购模型

所有内部

优点:该公司完全控制了数据仓库 design project.

警告:由于资源短缺,项目延迟/失败的风险。

外包技术资源

该公司拥有数据仓库 设计项目管理,同时依赖外包资源来执行数据仓库 平台选择,数据仓库 解决方案架构设计和数据建模等。

优点:项目完成后没有技术资源过度提供的风险。

警告:该模型需要所有团队成员的不断合作。内部PM和BA竞争力的高要求。

完整外包(内部项目赞助商,其他一切都是外包)

该公司将其数据仓库相关的需求传达给供应商,携带详细的数据仓库 要求工程,业务规划,系统分析,数据仓库 design, etc.

优点:没有数据仓库 由于资源不可用,项目延迟或故障。

警告:增加供应商依赖。

让您的DWH设计良好!

Sciencesoft的数据仓库团队准备在设定的时间和预算框架内设计成本效益和高性能的数据仓库解决方案,应用数据仓库设计最佳实践。

数据仓库 software we recommend

下面,我们列出了全面数据仓库平台,被认为是Gartner魔法象限和Forrester Wave报告的领导者,提供了一套全面的技术,以设计可扩展和高性能的云数据仓库。

亚马逊红移

最适合:Petabyte-Scale Analytics

描述

  • 集成所有数据类型(结构化,半结构化,非结构化)。
  • SQL数据查询(包括大数据)。
  • 自动基础架构配置,数据库备份和群集健康监控。
  • 联合查询能力。
  • 与AWS服务的深度集成(包括S3,AWS胶水,亚马逊EMR)。
  • 与第三方工具(Power Bi,Tableau,Informatica,Qlik,Talend云)集成。
  • 物质化视图和ML优化的性能。
  • 端到端数据加密,粒度访问控制和网络隔离。
  • 单独计费计算和存储资源。
  • 按需定价,没有前期成本。

价钱

  • 按需定价: $0.25/小时(dc2.large) - $ 13.04 /小时(RA3.16xlarge)。
  • 保留实例定价可以节省高达75%超过按需选项(在3年期间)。
  • 数据存储(RA3节点类型): $0.024/ gb /月。

Azure Synapse Analytics.

最佳:高级数据管理

描述

  • SQL查询结构化,半结构,非结构化数据,包括大数据。
  • 支持T-SQL,Python,Scala,Spark SQL和.NET。
  • 与Azure服务的本机集成,包括Apache Spark,Power BI,Azure ML,Azure流分析,Azure Cosmos DB等。
  • 与第三方双服务(Tableau,SAS,QLIK等)集成。
  • 使用结果集缓存和工作负载隔离加快查询。
  • 自动恢复点和备份。
  • 始终开启数据加密,动态数据屏蔽和细粒度访问控制。
  • 单独计费用于存储和计算资源。
  • 与您的付费/保留容量定价模型进行成本优化。

价钱

  • 计算按需定价: $1.20/小时(DW100C)- $360/小时(DW3000C)。
  • 计算保留实例 价钱可以节省65超过按需选项(在3年期间)。
  • 数据存储: $ 122.88/ tb /月。

Oracle自主数据仓库

最适合:Hybrid DWH

描述

  • 部署灵活性(Oracle公共云(共享/专用基础架构)或客户的数据中心)。
  • 集成所有数据类型(结构化,半结构化,非结构化)。
  • 自动数据仓库 供应,缩放,调整和固定。
  • 与Oracle Analytics Desktop的本机集成。
  • 与Oracle云基础架构对象存储,Azure Blob Storage,Amazon S3的连接。
  • 通过SQL * NET,JDBC,ODBC与自定义应用程序和第三方产品连接。
  • 始终开启数据加密,多因素身份验证,数据分类和发现。
  • 独立存储和计算资源的缩放。

价钱

  • 计算:$ 1.3441/ CPU /小时。
  • 数据存储: $118.40/ tb /月(在公共云中)。

选择最佳的技术设计可靠的DWH

我们已准备好协助您选择合适的数据仓库技术栈,以设计可扩展和有效的数据仓库解决方案,以解决您的短期和长期数据存储和处理需求,并降低数据仓库实施和维护成本。

数据仓库 design cost

设计10GB数据仓库解决方案,涉及数据转换和数据清理过程,可能成本40,000美元根据初始数据质量,数据转换复杂性等。

在主要数据仓库中 设计成本驱动程序是:

  • 数据源(ERP,CRM,SCM等)的数量,不同源的数据视差(例如,数据结构,格式的差异),数据源复杂度。
  • 要处理和存储的数据卷。
  • 源数据质量(低质量数据需要复杂的数据清理程序)。
  • 所需数据安全级别。
  • 数据仓库 速度,可伸缩性和容错要求。

考虑专业数据仓库 设计和实施服务

16. 数据仓库服务多年来,SCIENCESSOFT可帮助您设计和实施经济高效的数据仓库 解决方案满足您的战术和战略业务需求。

数据仓库 design

  • 数据仓库 要求工程。
  • 数据仓库 设计项目规划。
  • 数据仓库 解决方案概念化和建筑设计。
  • 数据仓库 software selection.
  • 数据仓库 系统分析与数据治理设计。
  • 数据模型和ETL / ELT过程的设计。

数据仓库 implementation

  • 数据仓库 要求工程。
  • 数据仓库 解决方案概念化和平台选择。
  • 数据仓库 architecture design.
  • 数据仓库 解决方案开发。
  • 数据仓库 质量保证和发布。
  • 数据仓库 支持和进化。

关于Sciencesoft.

Sciencesoft是一个全球IT咨询和软件开发公司,总部位于美国德克萨斯州麦金尼。自2005年以来,我们一直在提供D. Serata仓储服务,包括数据仓库 consulting,帮助我们的客户使用可扩展和有效的数据仓库构建强大的分析 根据自己的特殊业务需求设计的解决方案。 作为ISO 27001认证,我们保证与我们的合作不会对客户的数据安全提出任何风险。