IBM
使用 Spark 和 Hadoop 的大数据简介
IBM

使用 Spark 和 Hadoop 的大数据简介

本课程是多个项目的一部分。

Aije Egwaikhide
Romeo Kienzler
Rav Ahuja

位教师:Aije Egwaikhide

69,118 人已注册

包含在 Coursera Plus

深入了解一个主题并学习基础知识。
4.4

(458 条评论)

中级 等级

推荐体验

灵活的计划
2 周 在 10 小时 一周
自行安排学习进度
92%
大多数学生喜欢此课程
深入了解一个主题并学习基础知识。
4.4

(458 条评论)

中级 等级

推荐体验

灵活的计划
2 周 在 10 小时 一周
自行安排学习进度
92%
大多数学生喜欢此课程

您将学到什么

  • 解释大数据的影响,包括使用案例、工具和处理方法。

  • 介绍 Apache Hadoop 架构、生态系统、实践和用户相关应用,包括 Hive、HDFS、HBase、Spark 和 MapReduce。

  • 应用 Spark 编程基础,包括数据帧、数据集和 Spark SQL 的并行编程基础。

  • 使用 Spark 的 RDD 和数据集,使用 Catalyst 和 Tungsten 优化 Spark SQL,以及使用 Spark 的开发和运行环境选项。

要了解的详细信息

可分享的证书

添加到您的领英档案

作业

14 项作业

授课语言:英语(English)

了解顶级公司的员工如何掌握热门技能

Petrobras, TATA, Danone, Capgemini, P&G 和 L'Oreal 的徽标

积累特定领域的专业知识

此课程作为 的一部分提供
在注册此课程时,您还需要选择一个特定的合作项目。
  • 向行业专家学习新概念
  • 获得对主题或工具的基础理解
  • 通过实践项目培养工作相关技能
  • 获得可共享的职业证书

该课程共有7个模块

在本模块中,您将从大数据的最新定义开始学习大数据知识。您将通过大数据使用案例探索大数据对日常个人任务和业务交易的影响。您还将了解大数据如何使用并行处理、扩展和数据并行性。此外,您还将探索常用的大数据工具,并解释开源在大数据中的作用。最后,您将超越炒作,探索其他大数据观点。

涵盖的内容

8个视频1篇阅读材料2个作业2个插件

在本模块中,您将获得对 Apache Hadoop 架构、生态系统、实践和常用应用程序(包括分布式文件系统 (HDFS)、MapReduce、Hive 和 HBase)的基本了解。在使用 Hive 查询添加的数据、使用 Docker 启动单节点 Hadoop 集群和运行 MapReduce 作业时,您还将在动手实验室中获得实用技能。

涵盖的内容

6个视频1篇阅读材料2个作业3个应用程序项目2个插件

在本模块中,您将关注流行的 Apache Spark 平台,探索 Apache Spark 和分布式计算的属性和优势。您将获得关于函数式编程和 Lambda 函数的重要见解。您还将探索 Apache Spark 中的弹性分布式数据集(RDDs)、并行编程、弹性,并将 RDDs 与 Apache Spark 的并行编程联系起来。然后,您将深入学习 Apache Spark 的其他组件,了解 Apache Spark 如何扩展大数据。使用大数据意味着需要使用查询,包括使用 SQL 进行结构化查询。您还将了解 Spark SQL 和 DataFrame 查询的功能、部分和优势,并发现 DataFrame 如何与 Spark SQL 配合使用。

涵盖的内容

5个视频1篇阅读材料2个作业2个应用程序项目2个插件

在本模块中,您将了解弹性分布式数据集(RDD)、其在 Apache Spark 中的用途以及 RDD 转换和操作。您将比较数据集与 Spark 最新数据抽象 DataFrames 的使用。您将学会识别和应用基本的 DataFrame 操作。您将探索 Apache Spark SQL 优化,了解 Spark SQL 和内存优化如何从使用 Catalyst 和 Tungsten 中受益。最后,您将通过指导动手实验来强化技能,创建表格视图并应用数据聚合技术。

涵盖的内容

5个视频1篇阅读材料2个作业2个应用程序项目4个插件

在本模块中,您将了解 Spark 如何处理应用程序提交的请求,并学习如何使用 Spark 应用程序用户界面跟踪工作。由于 Spark 应用程序的工作是在集群上进行的,因此您需要能够识别 Apache 集群管理器、其组件和优点。您还将了解如何与每个集群管理器连接,以及如何和何时需要建立本地、独立的 Spark 实例。接下来,您将学习 Apache Spark 应用程序提交,包括使用 Spark 的统一接口 "spark-submit",并了解选项和依赖关系。您还将描述和应用提交应用程序的选项,识别外部应用程序依赖性管理技术,并列出 Spark Shell 的优势。您还将了解 Spark 静态和动态配置选项的推荐实践,并进行上机实验,在 IBM Cloud 上使用 Apache Spark 并在 Kubernetes 上运行 Spark。

涵盖的内容

6个视频2篇阅读材料3个作业2个应用程序项目4个插件

平台和应用程序需要监控和调整,以管理不可避免发生的问题。在本模块中,您将学习如何连接 Apache Spark 用户界面 Web 服务器,并使用相同的用户界面 Web 服务器管理应用程序进程。 您还将识别常见的 Apache Spark 应用程序问题,学习使用应用程序用户界面调试问题和查找相关日志文件。此外,您还将通过动手实验室发现并获得有关 Spark 如何管理内存和处理器资源的实际知识。

涵盖的内容

5个视频1篇阅读材料2个作业1个应用程序项目3个插件

在本模块中,您将进行一次实践实验,探索使用 Spark 进行数据处理的两个关键方面:使用弹性分布式数据集(RDD)和从 JSON 数据构建 DataFrames。您还将在 RDD 和 DataFrames 上应用各种转换和操作,以获得洞察力并有效处理数据。此外,您还将在结业项目中应用所学知识,通过从 CSV 文件加载数据并使用 Spark SQL 应用转换和操作来创建 DataFrame。最后,将根据您的课程学习情况对您进行评估。

涵盖的内容

3篇阅读材料1个作业2个应用程序项目2个插件

获得职业证书

将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。

位教师

授课教师评分
4.3 (115个评价)
Aije Egwaikhide
IBM
6 门课程750,885 名学生
Romeo Kienzler
IBM
10 门课程790,669 名学生
Rav Ahuja
IBM
56 门课程4,308,035 名学生

提供方

IBM

从 数据管理 浏览更多内容

人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.
自 2018开始学习的学生
''能够按照自己的速度和节奏学习课程是一次很棒的经历。只要符合自己的时间表和心情,我就可以学习。'
Jennifer J.
自 2020开始学习的学生
''我直接将从课程中学到的概念和技能应用到一个令人兴奋的新工作项目中。'
Larry W.
自 2021开始学习的学生
''如果我的大学不提供我需要的主题课程,Coursera 便是最好的去处之一。'
Chaitanya A.
''学习不仅仅是在工作中做的更好:它远不止于此。Coursera 让我无限制地学习。'

学生评论

4.4

458 条评论

  • 5 stars

    66.01%

  • 4 stars

    19.38%

  • 3 stars

    8.06%

  • 2 stars

    3.05%

  • 1 star

    3.48%

显示 3/458 个

CS
5

已于 Oct 27, 2022审阅

JS
4

已于 May 1, 2022审阅

TK
5

已于 Jan 17, 2025审阅

Coursera Plus

通过 Coursera Plus 开启新生涯

无限制访问 10,000+ 世界一流的课程、实践项目和就业就绪证书课程 - 所有这些都包含在您的订阅中

通过在线学位推动您的职业生涯

获取世界一流大学的学位 - 100% 在线

加入超过 3400 家选择 Coursera for Business 的全球公司

提升员工的技能,使其在数字经济中脱颖而出

常见问题