如何从划痕构建数据仓库:方法,计划,软件和成本

建立数据仓库的终极指南 -  SCIENCESTOFT

自2005年以来,Sciencesoft一直在提供数据仓库服务为了帮助公司构建成本效益和高性能的数据仓库  solutions.

构建数据仓库:摘要

  • 项目时间: From 3 to 12 months.
  • 构建数据仓库的步骤: 目标诱惑,概念化和平台选择,商业案例和项目路线图,系统分析和数据仓库 建筑设计,开发和发射。
  • 成本:从70,000美元开始。
  • 团队:项目经理,商业分析师,数据仓库 系统分析师,数据仓库 解决方案架构师,数据工程师,质量保证工程师,Devops工程师。
  • 构建数据仓库确保:
    • 自动化数据管理程序(数据收集,转换,清洁,结构等),用于提高数据质量和可靠性。
    • 统一的数据安全方法。
    • 一个平台准备好了高级分析举措。
    • 全公司的数据驱动文化等。

构建数据仓库的方法

数据仓库解决方案的典型体系结构包括以下图层:

数据源层

- 内部和外部数据源。

分期区

- 发生数据变换的临时区域。如果在数据存储层中执行数据转换,则不存在。

数据存储层

- 主机A.数据仓库 数据库(一个中央数据库用于存储公司的数据)和数据集市(用于存储特定业务线的数据的数据仓库子集 - 金融,营销,人力资源等)。

数据仓库中的数据  然后可以通过OLAP工具,数据挖掘工具,报告和可视化工具来查询数据库和数据集市。

构建数据仓库集中在数据存储层上的不同方法:

  • 亚太的方法 - 首先设计集中存储,然后从总结数据仓库数据和元数据创建数据集市。

亚太的建立DWH的方法

  • Kimball的方法 - 首先创建数据集市,然后从独立数据集市逐步开发数据仓库数据库。

Kimball的建立DWH的方法

亚太的方法

Kimball的方法

福利

缺点

从头开始构建数据仓库:逐步的计划 

注意:下面的时间帧是近似的,因为数据仓库的持续时间 开发过程取决于各种因素,包括源系统中的数据的复杂性和质量,数据安全要求,数据分析目标等。

步骤1.进球委托

持续时间:3 – 20 days

  • 发现您的业务目标(战术和战略)可以与数据仓库一起追求 development project.
  • 公司,部门,商业用户的期望和需求从项目的识别和优先顺序。
  • 审查公司当前的技术架构,使用中的应用等。
  • 进行初步数据源分析(数据类型和结构,体积,灵敏度等)。
  • 概述数据仓库 范围和高级系统要求。

步骤2.概念化和平台选择

持续时间:2 - 15天

  • 定义所需的数据仓库 解决方案功能集。
  • 选择最佳部署选项(本地/内部云/混合)。
  • 选择建立数据仓库的最佳架构设计方法。
  • 选择数据仓库 考虑到技术(DWH数据库,ETL / ELT工具,数据建模工具等):
    • 要加载到数据仓库中的数据源和数据卷数。
    • 要实现的数据流。
    • 数据安全要求。

注意:确保商务用户与BA和解决方案建筑师的密切合作,同时定义未来解决方案的核心和高级功能,以避免过度补偿数据仓库 架构并选择最具成本效益的技术堆栈。

第3步。商业案例和项目路线图

持续时间:2 - 15天

主要活动包括:

  • 定义数据仓库 开发项目范围,预算规划,时间表等
  • 安排DHW设计,开发和测试活动。
  • 绘制数据仓库 项目范围文档,数据仓库 解决方案架构视觉文档,数据仓库 部署策略,测试策略,项目实施路线图。
  • 制定风险管理计划。
  • 估算数据仓库的努力 开发项目,TCO和ROI。

注意:成功的数据仓库 发展项目计划有助于减少高达30%项目时间和预算,如此仔细地详细说明前阶段的结果。

步骤4.系统分析和数据仓库架构设计

持续时间:15 days

  • 对每个数据源的详细分析:
    • 数据类型和结构(数据模型,如果有的话)。
    • 每天生成的数据卷。
    • 数据灵敏度程度和应用数据访问方法。
    • 数据质量,丢失/数据差,可能执行数据源系统中的数据清理。
    • 确定是否缺少任何数据/足够的质量来支持业务需求。
    • 数据更新的频率。
    • 与其他数据源的关系。
  • 设计数据清理策略。
  • 创建数据安全策略(基于法律限制和数据安全规则的数据访问策略,数据加密策略,数据访问监控和数据合规性的策略,数据备份策略等)
  • 为数据仓库设计数据模型 and data marts.
  • 将数据对象识别为实体或属性;识别实体之间的关系。
  • 将数据对象映射到数据仓库中。
  • 设计数据集成和数据流控制的ETL / ELT流程。

注意:要为您的业务需求提供完全量身定制的数据生态系统的蓝图,请参与高级系统分析师在您的行业中具有相当大的经验。

步骤5.发展和稳定

持续时间:来自2 months

  • 数据仓库 平台定制。
  • 配置数据安全软件并实现数据安全策略(将数据安全策略应用于行,列等级别,开发自定义安全程序等)。
  • 开发ETL / ELT管道和ETL / ELT测试。
  • 数据仓库 performance testing.

注意:我们建议使用Devops驱动的迭代开发,以确保释放的速度和频率,而不会牺牲解决方案的质量。

步骤6.推出

持续时间:来自2 days

  • 数据迁移,数据质量评估。
  • 介绍数据仓库 to business users.
  • 拥有用户验收测试。
  • 进行用户培训会话和研讨会。

步骤7.启动后支持

持续时间:如要求

  • ETL / ELT性能调整。
  • 调整数据仓库 性能和可用性等
  • 支持最终用户。

建立数据仓库所需的才能

项目经理

  • 概述数据仓库 开发项目范围和目标,确定每个项目步骤的可交付成果,并确保其交货。
  • 为数据仓库提供估算 发展努力和管理资源。
  • 数据仓库 开发项目调度,为利益相关者提供项目更新。
  • 测量项目性能和识别改进领域。

商业分析师

  • 定义功能和非功能性数据仓库 要求,数据仓库 limitations.
  • 记录数据仓库的范围 解决方案,其成分,集成到现有的分析环境(如果有的话)。

数据仓库 system analyst

  • 分析数据源和数据分析软件(如果有)。
  • 定义数据仓库 系统要求创建数据模型的规范,设计ETL / ELT进程。
  • 审核加载到数据仓库中的数据质量。

数据仓库 solution architect

  • 设计数据仓库 解决方案架构。
  • 创建数据治理策略,政策和标准。
  • 建议数据仓库 tech stack.

数据工程师

  • 开发数据模型及其结构。
  • 开发和维护数据流行管线以将源数据路由到数据仓库。
  • 建立ETL / ELT过程。

质量保证工程师

  • 查看数据仓库 技术设计文件。
  • 设计测试策略。
  • 设计,开发和维护测试以评估开发的数据仓库 solution.

Devops工程师

  • 设置数据仓库 软件开发基础设施。
  • 引入持续集成/连续部署(CI / CD)管道自动化和简化数据仓库 开发过程。

采购模型

内部端到端数据仓库 development

该公司最大控制数据仓库 development project.

小心:由于资源或专业知识不可用,项目延迟是可能的。

技术资源部分外包

与供应商的资源一起扩展内部团队,同时保持对数据仓库的实质性控制 development project.

小心:对内部竞争力的高要求,以避免项目延迟/失败。

技术资源完全外包

在项目完成后最小化资源过度控制的风险。

小心: 对内部PM和BA竞争力的高要求。

所有资源都是外包

供应商对数据仓库完全责任 开发项目及所有相关风险。

小心:高供应商依赖。

使用专家帮助构建数据仓库

我们的团队将帮助您设计和构建可扩展,高性能的数据仓库,并在优化项目时间和预算中完全与您的数据存储和分析需求完全对齐。

数据仓库 software worth attention

如果您正在寻找业界最佳数据仓库平台,请探索我们在我们项目中使用的分析的最佳数据管理解决方案列表。每个数据仓库 这里提供的服务是领导者之一Forrester波 and Gartner魔术象限 报告并为您提供建立现代高性能数据仓库的平台。

亚马逊红移

最适合:大数据仓库

描述

  • 与AWS生态系统(Amazon S3,Amazon Athena,Amazon Sagemaker,Amazon EMR等)集成
  • 集成第三方的ETL / ELT,BI,数据建模等工具(双向电力,画面,Informatica的,Qlik,拓蓝云,等等)。
  • 使用Aqua(高级查询加速器),数据压缩,物化视图和结果缓存快速查询处理。
  • 不同工作负载下的ML优化性能。
  • 自动基础架构配置,表设计,备份和群集健康监控。
  • SQL数据查询(包括大数据)。
  • 运输中的数据加密和休息。
  • 细粒度访问控制。
  • HIPAA符合条件。
  • 分开计算和存储的缩放。

价钱

  • 按需定价: $0.25/小时(dc2.large) - $ 13.04 /小时(RA3.16xlarge)。

  • 保留实例定价可以节省高达75%超过按需选项(在3年期间)。

  • 数据存储(RA3节点类型):$0.024/ gb /月。

Azure Synapse Analytics.

最佳:高级数据管理

描述

  • SQL查询结构化,半结构化,非结构化数据类型。
  • 多语言支持(T-SQL,Python,Scala,Spark SQL,.NET)。
  • 与Apache Spark,Power BI,Azure ML,Azure流分析,Azure认知服务,Azure Cosmos DB等的本机集成。
  • 与第三方BI工具集成,包括Tableau,SAS,Qlik等。
  • 结果集缓存,工作负载隔离和群集列Store索引。
  • 自动恢复点和备份。
  • 端到端数据加密,动态数据屏蔽,粒度访问控制。
  • HIPAA符合条件。
  • 单独计算和存储资源的缩放。

价钱

  • 计算按需定价: $1.20/小时(DW100C)- $360/小时(DW3000C)。
  • 计算保留实例定价可以节省高达65%超过按需选项(在3年期间)。
  • 数据存储: $ 122.88/ tb /月。

Oracle自主数据仓库

最适合:Hybrid DWh

描述

  • SQL查询结构化,半结构化,非结构化数据。
  • 与Oracle Cloud Infrastructure对象存储和Oracle Analytics Desktop的本机集成。
  • 与Azure Blob Storage集成,Amazon S3。
  • 通过SQL * NET,JDBC,ODBC与自定义应用程序和第三方产品连接。
  • 部署灵活性(Oracle公共云(共享/专用基础架构)或客户的数据中心)。
  • 自动扩展,修补和升级,备份和恢复。
  • 具有连续查询优化,表索引,数据摘要和自动调整的高Query处理。
  • 数据加密在休息和运输中。
  • 多因素身份验证。
  • HIPAA符合条件。
  • 单独的存储和计算资源的缩放。

价钱

  • 计算:$ 1.3441/ CPU /小时。
  • 数据存储:118.40美元/ tb /月(在公共云中)。

使用专家帮助选择最佳DWH软件

经过仔细分析您的数据处理和存储需求,我们的团队将概述最佳DWH技术堆栈,以帮助您构建具有成本效益且易于维护的数据仓库。

数据仓库 development cost estimation

数据仓库的成本 开发项目可能如下所示:

  • 200 - 500名员工:$ 70,000 - 200,000美元*。
  • 500 - 1000名员工:$ 200,000 - 400,000美元*。
  • 1000+员工:$ 400,000 - 1,000,000美元*。

*不包括每月软件许可费和其他常规费用。

影响数据仓库成本的主要因素 开发项目是:

  • 数据源数量(ERP,CRM,SCM等)
  • 不同源的数据视差(例如,数据结构,格式和值的使用差异)。
  • 数据源复杂性(例如,大数据,流数据)。
  • 要处理和存储的数据卷。
  • 数据灵敏度和数据安全要求。
  • 要集成到数据仓库中的数据流量和实体数(“客户”,“薪水”,“事务”等)。
  • 数据仓库 性能要求(速度,可扩展性等)。

考虑数据仓库的专业服务 Development

自2005年以来,Sciencesoft一直在提供全系列的数据仓库 咨询和开发服务,帮助公司构建具有成本效益和可扩展的数据仓库 解决解决数据管理和分析需求的解决方案。

数据仓库 design

  • 数据仓库 要求工程。
  • 商业案例创建,数据仓库的建议 price optimization.
  • 数据仓库 概念化和软件选择。
  • 数据仓库 解决方案建筑设计。
  • 数据治理设计。
  • 数据仓库 system analysis.
  • 数据建模和ETL / ELT设计。

数据仓库 发展外包

  • 数据仓库 要求工程。
  • 数据仓库 解决方案概念化和平台选择。
  • 数据仓库 解决方案建筑设计。
  • 数据仓库 system analysis.
  • 数据建模和ETL / ELT设计。
  • 数据仓库 解决方案开发。
  • 数据仓库 质量保证和发布。
  • 数据仓库 后启动支持。

Sciencesoft作为一个值得信赖的DWH合作伙伴

当我们第一次联系SCIENCESTOFT时,我们需要关于创建集中式分析解决方案的专家建议,以实现公司范围的透明分析和报告。在一系列采访后,SCIENCESTOFT的顾问分析了我们的工作负载,文档和现有基础设施,并为我们提供了一个明确的项目路线图。

他们每日与我们联系,允许我们立即调整工程的范围,并在飞行中实施新的要求。此外,团队每隔一周交付演示,以便我们可以确定 系统与我们的业务需求保持一致。

Heather Owen Nigl, 首席财务官,阿尔塔资源

关于Sciencesoft.

Sciencesoft是一个全球IT咨询和软件开发公司,总部位于美国德克萨斯州麦金尼。自2005年以来,我们一直在提供数据仓库 services帮助企业开发全规模的数据仓库 解决方案并就如何确保数据仓库成功的建议 development process. Being ISO 9001.ISO 27001. - 提供,我们依靠成熟的质量管理体系,并保证与我们的合作不会对客户的数据安全构成任何风险。