在云中构建数据仓库的最佳软件:功能,优惠,成本

云数据仓库概述 -  Sciencesoft

Sciencesoft一直在渲染数据仓库咨询服务 for more than 16 years.

云数据仓库: the essence

云数据仓库使用由云提供商分配的空间和计算功率,以将数据从不同数据源集成并存储分析查询和报告。

云与本地数据仓库

方面

云数据仓库s

本地数据仓库

可扩展性

可用性

安全

表现

成本效益

数据集成和管理

  • 与ETL / ELT进程的数据集成。
  • 灵活的SQL查询数据。
  • 摄入所有数据类型(结构化,半结构化,非结构化)。
  • 大数据摄取。
  • 流媒体数据凝固。
  • 完整和增量数据提取/负载。
  • 不同复杂性的数据转换(数据类型转换,摘要等)。

数据存储

  • 主题的数据存储。
  • 存储时间变量(从历史角度来看)数据。
  • 只读数据存储。
  • 集成数据存储(数据从不同数据源合并)。
  • 元数据存储。
  • 优化数据存储(柱状数据存储,数据压缩等)。

数据仓库 database performance

  • 弹性按需缩放存储和计算资源。
  • 大规模并行处理数据库。
  • 物化视图支持(重用分析查询的预先计算结果)。
  • 结果缓存。
  • 性能和并发动态管理(预测和优先考虑ML的查询)。
  • 容错。

数据仓库 database management

  • 自动基础设施配置。
  • 自动数据备份。
  • 预构建的数据源集成。

安全与合规

  • 数据加密。
  • 粒度访问控制。
  • 用户身份验证和数据访问权限。
  • 遵守国家,区域和行业特定的法规(例如,GDPR,HIPAA,PCI DSS)。

需要一个表现良好的云DWH?

Sciencesoft已准备好设计和实施云数据仓库,符合您的特定数据存储需求或将当前数据仓库解决方案迁移到云以增加数据仓库性能并降低运营成本。

云数据仓库  - 用于降低成本和值的重要软件集成

云DWH  -  SCIENCESTOFT的重要集成

数据湖

数据湖泊存储很少被访问的结构化,半结构化和非结构化数据的大量,用于分析查询。此外,它可以从数据仓库接收高度结构化数据 使用其他服务(大数据SSystems,ML系统等)进行处理。

分析和报告软件

来自数据仓库的高度结构化数据 进一步分析,进给M1工作负载,并可视化为最终用户。

如何确定云数据仓库 success

满足数据安全性和保护要求

选择符合需要的监管要求的云供应商(例如,提供HIPAA符合条件数据仓库的云供应商 platforms).

为了消除数据泄漏的风险并防止未经授权的数据访问,云数据仓库 解决方案应具有以下功能:

  • 用户身份验证/授权。
  • 数据访问控制。
  • 端到端数据加密。
  • 动态数据掩蔽等

选择具有巨大集成功能的数据仓库软件

云数据仓库 平台应具有共同编程语言的SDK,并支持与所需数据源的开箱即用的集成。

为数据仓库工作负载选择最佳定价模型

为避免结算超额,密切监视云使用,并考虑云供应商建议的成本节约的各种方案,例如单独的存储和计算资源,保留基础设施承诺,计费警报,数据仓库节省 暂停,支付代价模型等。

云数据仓库 benefits

TCO储蓄

云数据仓库 不需要购买和维护昂贵的硬件;它能够成本有效,最大限度地减少基础设施超级的风险。

减少开发成本

由于数据仓库,减少了IT员工时间 自动化 - 存储和计算资源的自动上调和下降,数据管理任务(数据收集,聚合,建模)。

快速洞察的时间

云的即时可扩展性,灵活性和可靠性使数据仓库 增强的性能和可用性,从而导致加速商业智能,从而实现更快的业务决策。

Azure Synapse Analytics.

概括

最适合:企业数据仓库。

Azure Synapse Analytics.有利于将来自公司部门,子公司等数百个数据源的数据集成在几秒钟内进行分析查询的分析查询。从C-Suite向董事,管理人员和主管报告所有管理水平,受到细粒度的数据访问控制。

描述

  • 预构建的集成,用于从90多个数据源摄取数据。
  • 从Azure数据出厂的任何源加载和清洁数据。
  • 存储大量数据(对于RowStore表的最多240 TB,以及列Store表的无限存储)。
  • 工作负载分类和隔离,灵活的索引选项(群集列Store,群集和非群集索引),物化视图支持,结果集缓存等,用于优化复杂查询性能。
  • 与Azure Machine学习的集成,用于建立ML模型并在数据仓库中生成预测。
  • 兼容Python,R,.NET,T-SQL,Scala,Spark SQL,用于满足各种分析任务。
  • 模式上的粒度权限,表,视图,单个列,过程和其他对象。
  • 单独计费计算和存储,以节省不同数据卷和查询加载。

市场 recognition:

Sciencesoft的提示:当数据仓库超过1 TB时,通常明确实现Azure Synapse Analytics.性能增益,并且具有亿根的表。否则,使用Azure SQL数据库可能是合理的。

价钱

计算:

  • 按需定价:$1.20/小时(DW100C) - $360/小时(DW3000C)。
  • 预留实例定价可以通过按需选项节省高达65%(在3年期间)。

数据存储: $ 122.88/ tb /月。

注意:无需收取数据量的费用。

亚马逊红移

概括

最适合:大数据仓库。

亚马逊红移在数据仓库,运营数据存储和数据湖中启用SQL查询结构化,半结构化和非结构化数据的exabytes,以及数据湖泊的可能性,可以进一步汇总具有大数据分析和ML服务的数据。

描述

  • 将结构和半结构化数据运行对Terabytes的分析查询(在群集中最多16个数据)。
  • 查询来自数据湖(Amazon S3)的结构化,半结构化和非结构化数据的exabytes,以分析而不加载和转换。
  • 使用联合查询可能性查询AWS上的操作和关系数据库的数据。
  • 使用与Amazon EMR预先构建的集成使用预先构建的集成处理大数据。
  • 使用Amazon ML的Amazon Redshift中的数据创建和培训ML模型。
  • 通过高级查询加速器,结果缓存,物化视图和基于ML的工作负载管理,容纳大数据工作负载。
  • 可以单独支付计算和托管存储(RA3节点类型)。

市场 recognition: 

Sciencesoft的提示:要加载流数据(传感器数据,其他实时数据),请使用Amazon Kinesis捕获和转换流数据并将其加载到S3数据湖中。然后将数据加载到带有副本命令的块的闪光灯。

价钱

  • 按需定价$ 0.25 - $ 13.04/小时。
  • 保留实例定价提供高达75%的按需选项(为期3年)。
  • 数据存储(RA3节点类型):$0.024/ gb /月。

注意:无需收取数据量的费用。

谷歌bigquery.

概括

最适合:具有不经常查询的大量数据存储的经济高效存储。

BigQuery允许具有高达10,000列的表格的经济高效的exabyte级存储。当主要分析查询根据分区或群集或需要扫描整个数据集时,它最有效。

描述

  • 超过100个预构建的数据源连接器。
  • 使用数据传输服务(DTS)自动加载和转换数据。
  • 查询跨对象存储(云存储),事务数据库(Bigtable,Cloud SQL),驱动器中的电子表格的数据,而无需数据移动,请使用联合查询支持。
  • 与Apache大数据生态系统与DataProc和DataFlow集成,以直接从使用存储API从大查询读取和写入数据。
  • 用BigQuery的流插入API,DatastRam,Pub / Sub和DataFlow流媒体数据摄取和分析。
  • 使用BigQuery Omni(预览)跨越云(AWS和Azure)的数据查询数据。
  • 子次级查询响应时间与基于列的存储,物化视图,缓存查询结果等。
  • 优化的数据存储成本具有配置数据库和表的默认表expiration,分区表的分区到期,长期存储等。
  • 使用BigQuery ML,Vertex AI和Tensorflow培训和执行结构化数据的ML模型。
  • 支持T-SQL,Java,Python,C#,Go,node.js,php和Ruby。
  • 更简单(与Amazon Redshift和Azure Synapse Analytics.)数据库管理所需的数据库管理由于CPU和数据按压自动化,默认情况下数据加密开启等。
  • 数据集,表格和视图上的粒度权限。

市场 recognition: 

Sciencesoft的提示: BigQuery不提供任何索引,并且许多分析查询扫描整个数据库。并且根据处理的数据量单独收取BigQuery费用,考虑设置定制成本控制以限制每天查询数据流程量。

价钱

  • 储存:$ 0.02/ gb /月($0.01/ GB /月的长期存储 - 表/表分区连续90天未修改)。
  • 流插件:0.01美元/ 200 MB。
  • 查询性能:5美元/ tb,1st TB/月是自由(现收现付)。
  • 从10万美元起/月,专用预订500个处理单元(平价定价)。

Azure SQL数据库

概括

最适合:中型数据仓库。

Azure SQL数据库适用于数据仓库方案,具有最多8 TB的数据卷和大量活动用户(并发请求最多可达6,400,最多可达30,000个并发会话)。

描述

  • 三个部署选项:
    • 单个数据库 - 一个完全托管的孤立数据库,具有保证数量的计算,内存和存储资源
    • 弹性池 - 具有共享资源池的单个数据库集合。
    • 托管实例 - SQL Server的完全托管实例(适用于在前提SQL Server数据仓库的升降机和移位迁移)
  • 容纳具有三个服务层的各种工作负载:通用(用于预算的工作负载8 TB数据库存储),业务关键词(4 TB数据库存储,用于低延衰老工作负载,具有高弹性和快速故障转移)和超高度(UP)到100 TB的数据库存储)
  • 动态可伸缩性和自动尺度功能。
  • 自动索引管理和计划纠正(有问题的SQL计划性能识别和修复)。
  • 智能洞察监测数据库性能和提醒性能下降问题并获得性能改进建议。
  • 支持跨数据库SQL查询。
  • 支持.NET,Java,Node.js,Ruby,PHP和Python。
  • 始终是关于数据加密。

市场 recognition: 

Sciencesoft的提示:Azure SQL数据库提供内置备份,可以配置为长期保留遵守和审计原因。

价钱

  • 一般用途:配置计算 - $ 0.51- $ 20.18/小时(第5个),局部冗余存储 - $0.115/ gb /月。
  • 企业关键词:配置计算 - $ 1.36- $ 54.36/小时(第5个), storage – $0.25/ gb /月。
  • viperscale:配置计算 - $ 0.57- $ 22.62/小时(第5个), storage – $0.10/ gb /月。

Azure Cosmos DB. + Azure Synapse Analytics.

概括

最佳:操作数据仓库(混合事务/分析处理)。

Azure Cosmos DB.和Azure Synapse Analytics.使企业团队能够在大型操作实时数据集上运行快速,经济高效的No-ETL查询,而无需复制数据并影响公司的事务工作负载的性能。

描述

  • 将Petabytes在由Azure Cosmos DB中分开地与基于索引的基于行的交易商店分开的用于分析查询。
  • Inserts,更新的自动同步,将来自交易商店的Cosmos DB运行数据删除到近乎实时的分析商店。
  • 在Cosmos帐户中配置的区域复制数据并在区域内维护4个数据的副本,以获得高可用性和灾难恢复。
  • 控制容器级别的分析储存中的操作数据的控制,并具有分析时间对实时能力。
  • 使用Azure Synapse链接在Azure Cosmos DB Analytical Store中的运行数据近实时大规模No-ETL分析。
  • 灵活的索引选项(主索引和辅助索引),用于在操作数据上执行复杂的分析查询。
  • 模式上的粒度权限,表,视图,单个列,过程和其他对象。
  • Azure ML集成在Azure Synapse分析中构建机器学习(ML)模型,以产生对操作数据的洞察。
  • 数据加密与客户管理密钥。

市场 recognition: 

Sciencesoft的提示: 规划备份策略时,请记住Cosmos DB Analytical Store不支持自动备份和还原。要恢复分析商店中的数据,您需要正确配置从自动恢复的Cosmos DB帐户复制数据到主Cosmos DB帐户。

价钱

Azure Cosmos DB. Analytical Store:

  • 贮存 -$0.02/ GB /月
  • 写操作(每10,000个操作) - $0.05
  • 阅读操作(每10,000个操作) - $0.005

Azure Synapse Analytics.:

计算:

  • 按需定价:$1.20/小时(DW100C) - $360/小时(DW3000C)。
  • 预留实例定价可以通过按需选项节省高达65%(在3年期间)。
  • 数据存储:$ 122.88/ tb /月。

Azure Synapse链路定价包括使用该费用Azure Cosmos DB. Analytical Store Synapse运行时。

雪花

概括

最适合:云无话会数据仓库。

作为软件AS-Service提供,Snowflake使公司能够将不同云供应商(AWS,Azure,GCP)的计算资源分配给同一数据库以加载和查询数据,而没有影响数据仓库性能。

描述

  • 在Amazon Web服务(AWS),Microsoft Azure(Azure)和Google云平台(GCP)上托管雪花帐户(存储,计算和云服务)。
  • 单独的存储和计算资源使用存储服务进行数据和虚拟仓库的持久存储(由来自云提供商分配的雪花分配的多个计算节点组成的MPP计算群集)用于即时查询处理(处理6到60万行数据在从2秒到10秒)。
  • 无论存储帐户的云平台如何,Amazon S3,Microsoft Azure Blob存储和Google云存储的批量和持续数据加载
  • 支持多个服务连接:
    • 用于管理和使用雪花的基于Web的用户界面和命令行客户端(例如Snowsql)。
    • ODBC,JDBC,.NET,PHP和Node.js.连接应用程序的驱动程序(例如Tableau)。
    • 应用程序开发的本机连接器(例如Python,Spark)
    • ETL工具的第三方连接器(例如Informatica)和BI工具(例如Power Bi,Idanspot)。
  • 自动化数据库维护功能:内置性能优化,自动聚类,物化视图维护,端到端的自动数据加密等。
  • 避免使用自动暂停功能的资源意外花费。

市场 recognition:

Sciencesoft的提示:雪花的安全性和合规选择根据特定版本而变化。标准和企业版提供如自动数据加密,对象级别访问控制,多因素认证等的必要安全功能。企业关键和VPS(虚拟私人雪花)提供了更高级的数据安全功能,包括客户管理的加密密钥,支持PHI数据,PCI DSS合规等。

价钱

按需和预购买定价,单独计费存储和计算,每秒计算计费(至少60秒)等。

  • 按需雪花 - 基于使用的,每秒定价,没有长期承诺。
  • 雪花容量存储 - 每秒预先购买的计算使用,至少60秒,自动暂停和自动恢复功能。

定价可用直接请求雪花.

数据仓库平台最适合您?

既然你看到了六个云数据仓库平台的强大能力,你可能有一个大问题:“这是我的案子?” Sciencesoft的顾问可以帮助您找到答案,它是免费的!我们现在可以开始:

  1. 您简要介绍了数据仓库需求,例如数据仓库目的,预期的数据卷,数据源,数据仓库用户数(如果已知)。
  2. 我们回复根据您的行业,商业规模和需求量身定制的调查问卷。
  3. 你 send us answers.
  4. 我们建议您提供数据仓库平台,描述其配置,并提供成本和实现时间。免费!

实现云数据仓库

自2005年以来,Sciencesoft渲染 数据仓库瘤和发展服务 帮助我们的客户构建一个 灵活的集中存储在拟合云平台上,使分析功能能够优化内部业务流程并增强决策。

云数据仓库 consulting

我们的队伍:

  • 分析您的业务需求和对未来云数据仓库的要求 solution.
  • 设计云数据仓库架构。
  • 概述最佳云数据仓库 平台及其配置。
  • 建议数据治理程序。
  • 设计云数据仓库 实施/迁移策略。
  • 进行管理员培训。
  • 为复杂的项目提供PoC。

云数据仓库 implementation

我们的队伍:

  • 分析您的业务需求并定义所需的云数据仓库 configurations.
  • 为复杂的项目提供PoC。
  • 数据建模并设置ETL / ELT管道。
  • 开发并集成云数据仓库 进入现有数据生态系统。
  • 运行QA。
  • 如果需要,提供用户培训和支持。

关于Sciencesoft.

Sciencesoft是一个全球IT咨询和IT服务公司,总部位于德克萨斯州德克萨斯州麦金尼。自2005年以来,我们协助客户提供数据仓库 解决方案借助端到端的帮助数据仓储服务鼓励敏捷和数据驱动的决策。我们与Microsoft,AW,Oracle等的全球技术供应商的长期合作伙伴关系允许我们为企业用户提供量身定制的端到端云数据仓库解决方案。 作为ISO 27001认证,我们保证与我们的合作不会对客户的数据安全提出任何风险。