Hadoop实验室部署和支持

Hadoop实验室部署和支持

行业
教育
技术领域
大数据,Hadoop,数据分析

顾客

客户是美国最大的教育机构之一。

挑战

客户为未来的数据分析师和大数据专业人员提供计算机科学课程。为了给学生提供涵盖理论和实践的全面培训,客户在云中部署了Hadoop实验室。但是,客户并不认为此解决方案具有成本效益。为了削减开支,他们决定部署本地Hadoop实验室。他们委托ScienceSoft为他们安装和配置Hadoop集群,并提供支持以确保实验室的快速采用。

处理

咨询服务

根据学生要处理的预计数据量和要执行的任务,ScienceSoft的 Hadoop咨询团队 估计的最小和最佳硬件要求。除此之外,我们的顾问还建议客户选择哪种操作系统以及要部署什么大数据技术和框架,以便Hadoop实验室能够按预期运行。我们的团队还分析了建议技术的哪些版本将最适合实验室。

部署方式

为了降低差旅费用,我们的团队在场外进行了所有初步工作。例如,我们远程安装了操作系统并对其进行了配置。仅最后一步-Hadoop部署本身-要求我们的顾问在现场。

根据咨询阶段的决定,ScienceSoft在客户的实验室Hortonworks数据平台中安装了以下组件:

  • 核心Hadoop平台(Hadoop分布式文件系统和Hadoop MapReduce)
  • Apache Hive(基于HDFS构建的数据仓库软件)
  • Apache Hadoop YARN(资源管理器和作业计划程序)
  • Apache Ambari(Hadoop管理和管理服务)
  • Apache Oozie(工作流处理器)
  • Apache Spark(数据处理引擎)
  • Apache Pig(ETL脚本平台)
  • Apache Zeppelin(用于分析的笔记本)
  • Apache Ranger(确保Hadoop群集安全的框架)
  • Anaconda(用于数据科学和机器学习任务的平台)
  • Apache ZooKeeper(支持跨Hadoop集群同步的框架)
  • Jupyter笔记本。

支持

我们的团队确保了实验室的快速采用。部署后,我们的顾问进行了许多远程协助会议,我们在其中详细解释了数据平台的每个组件应如何工作。

ScienceSoft还创建了一些指南,解释了如何使用这些技术(如何创建用户,学生的工作空间等)。

由于实验室是为训练而设计的,因此很有可能出现问题。这就是为什么ScienceSoft向客户提供如何在不让我们的团队或任何其他第三方参与的情况下如何重新安装软件的分步说明的原因。

结果

客户获得了一个平稳运行的本地Hadoop实验室,该实验室为学生提供了宝贵的实践知识来源。感谢ScienceSoft组织的培训,客户迅速了解了构成Hadoop实验室的每种技术的作用,并准备相应地使用它们。

技术与工具

Hadoop分布式文件系统,Hadoop MapReduce,Apache Hive,Apache Hadoop YARN,Apache Ambari,Apache Oozie,Apache Spark,Apache Pig,Apache Zeppelin,Apache Ranger,Anaconda,Apache ZooKeeper,Jupyter Notebook。

致电给我们,我们的代表将在30分钟内与您联系以安排初步讨论。