使用 Spark 和 Hadoop 的大数据简介

通过 Coursera Plus 提高技能，仅需 239 美元/年（原价 399 美元）。立即节省

使用 Spark 和 Hadoop 的大数据简介

Q: 我什么时候能看到讲座和作业？

要获得课程资料、作业和证书，您需要在注册课程时购买证书体验。 您可以尝试免费试听，或申请资助。课程可能提供 "完整课程，无证书"。通过该选项，您可以查看所有课程资料，提交必要的评估，并获得最终成绩。这也意味着您无法购买证书体验。

本课程是多个项目的一部分。

位教师：Aije Egwaikhide

74,927 人已注册

包含在中

了解更多

7个模块

深入了解一个主题并学习基础知识。

478 条评论

中级等级

推荐体验

灵活的计划

2 周在 10 小时一周

自行安排学习进度

92%

大多数学生喜欢此课程

7个模块

深入了解一个主题并学习基础知识。

478 条评论

中级等级

推荐体验

灵活的计划

2 周在 10 小时一周

自行安排学习进度

92%

大多数学生喜欢此课程

您将学到什么

解释大数据的影响，包括使用案例、工具和处理方法。
介绍 Apache Hadoop 架构、生态系统、实践和用户相关应用，包括 Hive、HDFS、HBase、Spark 和 MapReduce。
应用 Spark 编程基础，包括数据帧、数据集和 Spark SQL 的并行编程基础。
使用 Spark 的 RDD 和数据集，使用 Catalyst 和 Tungsten 优化 Spark SQL，以及使用 Spark 的开发和运行环境选项。

您将获得的技能

您将学习的工具

要了解的详细信息

可分享的证书

添加到您的领英档案

作业

14 项作业

授课语言：英语（English）

了解顶级公司的员工如何掌握热门技能

了解关于 Coursera for Business 的更多信息

Petrobras, TATA, Danone, Capgemini, P&G 和 L'Oreal 的徽标

积累特定领域的专业知识

此课程作为的一部分提供

在注册此课程时，您还需要选择一个特定的合作项目。

向行业专家学习新概念
获得对主题或工具的基础理解
通过实践项目培养工作相关技能
获得可共享的职业证书

该课程共有7个模块

这门自定进度的 IBM 课程将向您传授有关大数据的所有知识！您将熟悉大数据的特点及其在大数据分析中的应用。您还将获得使用 Apache Hadoop 和 Apache Spark 等大数据处理工具的实践经验。

伯纳德-马尔将大数据定义为我们在数字时代产生的数字痕迹。课程开始时，您将了解什么是大数据，并探索如何利用大数据的洞察力来处理各种用例。您还将探索大数据如何使用并行处理、扩展和数据并行等技术。接下来，您将了解 Hadoop（一种允许分布式处理大型数据的开源框架）及其生态系统。您将发现与 Hadoop 相结合的重要应用，如分布式文件系统 (HDFS)、MapReduce 和 HBase。您将熟悉 Hive，这是一款数据仓库软件，提供类似 SQL 的界面，可有效查询和操作大型数据集。然后，您将深入了解 Apache Spark，这是一个开源处理引擎，为用户提供了存储和使用大数据的新方法。在本课程中，您将了解如何利用 Spark 提供可靠的见解。课程概述了该平台，并介绍了组成 Apache Spark 的各个组件。您将了解 DataFrames，执行基本的 DataFrame 操作，并使用 SparkSQL。探索 Spark 如何处理和监控应用程序提交的请求，以及如何使用 Spark Application UI 跟踪工作。本课程包含多个动手实验室，帮助您应用和实践所学概念。您将使用各种工具和技术完成 Hadoop 和 Spark 实验，包括 Docker、Kubernetes、Python 和 Jupyter Notebooks。

在本模块中，您将从大数据的最新定义开始学习大数据知识。您将通过大数据使用案例探索大数据对日常个人任务和业务交易的影响。您还将了解大数据如何使用并行处理、扩展和数据并行性。此外，您还将探索常用的大数据工具，并解释开源在大数据中的作用。最后，您将超越炒作，探索其他大数据观点。

涵盖的内容

8个视频1篇阅读材料2个作业2个插件

8个视频总计48分钟

课程介绍6分钟
什么是大数据？8分钟
大数据的影响6分钟
并行处理、扩展和数据并行性8分钟
大数据工具和生态系统5分钟
开源和大数据6分钟
超越炒作5分钟
大数据使用案例6分钟

1篇阅读材料总计2分钟

摘要和要点：大数据简介2分钟

2个作业总计41分钟

实践测验：大数据简介14分钟
分级测验：什么是大数据？27分钟

2个插件总计27分钟

新兴 Big Data 技术简介15分钟
模块 1 术语表：什么是大数据？12分钟

在本模块中，您将获得对 Apache Hadoop 架构、生态系统、实践和常用应用程序（包括分布式文件系统 (HDFS)、MapReduce、Hive 和 HBase）的基本了解。在使用 Hive 查询添加的数据、使用 Docker 启动单节点 Hadoop 集群和运行 MapReduce 作业时，您还将在动手实验室中获得实用技能。

涵盖的内容

6个视频1篇阅读材料2个作业3个应用程序项目2个插件

6个视频总计37分钟

Hadoop 简介7分钟
MapReduce 简介6分钟
Hadoop 生态系统4分钟
HDFS8分钟
HIVE6分钟
HBASE6分钟

1篇阅读材料总计2分钟

摘要和要点：Hadoop 简介2分钟

2个作业总计36分钟

实践测验：Hadoop 简介12分钟
分级测验：Hadoop 生态系统介绍24分钟

3个应用程序项目总计60分钟

实践实验室：Hive 入门20分钟
实践实验室：Hadoop MapReduce20分钟
实践实验室：Hadoop 集群（可选）20分钟

2个插件总计30分钟

小抄：Hadoop 生态系统简介15分钟
模块 2 词汇表：Hadoop 生态系统简介15分钟

在本模块中，您将关注流行的 Apache Spark 平台，探索 Apache Spark 和分布式计算的属性和优势。您将获得关于函数式编程和 Lambda 函数的重要见解。您还将探索 Apache Spark 中的弹性分布式数据集（RDDs）、并行编程、弹性，并将 RDDs 与 Apache Spark 的并行编程联系起来。然后，您将深入学习 Apache Spark 的其他组件，了解 Apache Spark 如何扩展大数据。使用大数据意味着需要使用查询，包括使用 SQL 进行结构化查询。您还将了解 Spark SQL 和 DataFrame 查询的功能、部分和优势，并发现 DataFrame 如何与 Spark SQL 配合使用。

涵盖的内容

5个视频1篇阅读材料2个作业2个应用程序项目2个插件

5个视频总计24分钟

为什么使用 Apache Spark？5分钟
函数式编程基础6分钟
使用弹性分布式数据集进行并行编程5分钟
Apache Spark 中的扩展/数据并行性4分钟
数据帧和 SparkSQL4分钟

1篇阅读材料总计2分钟

摘要和要点：Apache Spark 简介2分钟

2个作业总计31分钟

实践测验：Apache Spark 简介10分钟
分级测验：Apache Spark21分钟

2个应用程序项目总计75分钟

实践实验室：Pyspark 和 Pandas 入门60分钟
实践实验室：使用 Python 入门 Spark15分钟

2个插件总计30分钟

小册子：Apache Spark15分钟
模块 3 术语表：Apache Spark15分钟

在本模块中，您将了解弹性分布式数据集（RDD）、其在 Apache Spark 中的用途以及 RDD 转换和操作。您将比较数据集与 Spark 最新数据抽象 DataFrames 的使用。您将学会识别和应用基本的 DataFrame 操作。您将探索 Apache Spark SQL 优化，了解 Spark SQL 和内存优化如何从使用 Catalyst 和 Tungsten 中受益。最后，您将通过指导动手实验来强化技能，创建表格视图并应用数据聚合技术。

涵盖的内容

5个视频1篇阅读材料2个作业2个应用程序项目4个插件

5个视频总计26分钟

并行编程和 Spark 中的 RDD5分钟
数据框架和数据集5分钟
催化剂和钨5分钟
使用数据框架进行 ETL6分钟
SparkSQL 的实际应用4分钟

1篇阅读材料总计2分钟

摘要和要点：数据框架和 Spark SQL 简介2分钟

2个作业总计31分钟

练习测验：数据框架和 Spark SQL 简介10分钟
分级测验：数据框架和 Spark SQL21分钟

2个应用程序项目总计30分钟

实践实验室：数据帧简介15分钟
上机实验室：SparkSQL 简介15分钟

4个插件总计60分钟

阅读DSL 和 SQL 的用户定义模式 (UDS)10分钟
阅读：Spark 中的常见转换和优化技术20分钟
小册子：数据框架和 Spark SQL15分钟
模块 4 术语表：数据框架和 Spark SQL15分钟

在本模块中，您将了解 Spark 如何处理应用程序提交的请求，并学习如何使用 Spark 应用程序用户界面跟踪工作。由于 Spark 应用程序的工作是在集群上进行的，因此您需要能够识别 Apache 集群管理器、其组件和优点。您还将了解如何与每个集群管理器连接，以及如何和何时需要建立本地、独立的 Spark 实例。接下来，您将学习 Apache Spark 应用程序提交，包括使用 Spark 的统一接口 "spark-submit"，并了解选项和依赖关系。您还将描述和应用提交应用程序的选项，识别外部应用程序依赖性管理技术，并列出 Spark Shell 的优势。您还将了解 Spark 静态和动态配置选项的推荐实践，并进行上机实验，在 IBM Cloud 上使用 Apache Spark 并在 Kubernetes 上运行 Spark。

涵盖的内容

6个视频2篇阅读材料3个作业2个应用程序项目4个插件

6个视频总计33分钟

Apache Spark 架构6分钟
Apache Spark 集群模式概述6分钟
如何运行 Apache Spark 应用程序7分钟
在 IBM 云上使用 Apache Spark4分钟
设置 Apache Spark 配置6分钟
在 Kubernetes 上运行 Spark5分钟

2篇阅读材料总计4分钟

摘要和要点：星火架构2分钟
摘要和亮点：Spark 运行时环境2分钟

3个作业总计33分钟

实践测验：星火架构6分钟
实践测验：Spark 运行时环境6分钟
分级测验：开发和运行环境选项21分钟

2个应用程序项目总计80分钟

实践实验室：提交 Apache Spark 应用程序60分钟
实践实验室：Kubernetes 上的 Apache Spark20分钟

4个插件总计40分钟

Spark 环境 - 概述和选项5分钟
如何建立自己的 Spark 环境（可选）5分钟
小抄：开发和运行时环境选项15分钟
模块 5 术语表：开发和运行时环境选项15分钟

平台和应用程序需要监控和调整，以管理不可避免发生的问题。在本模块中，您将学习如何连接 Apache Spark 用户界面 Web 服务器，并使用相同的用户界面 Web 服务器管理应用程序进程。您还将识别常见的 Apache Spark 应用程序问题，学习使用应用程序用户界面调试问题和查找相关日志文件。此外，您还将通过动手实验室发现并获得有关 Spark 如何管理内存和处理器资源的实际知识。

涵盖的内容

5个视频1篇阅读材料2个作业1个应用程序项目3个插件

5个视频总计30分钟

Apache Spark 用户界面6分钟
监控申请进度8分钟
调试 Apache Spark 应用程序问题6分钟
了解内存资源6分钟
了解处理器资源5分钟

1篇阅读材料总计2分钟

摘要和要点：监控和调整简介2分钟

2个作业总计31分钟

练习测验：监控和调整简介10分钟
分级测验：监控和调整21分钟

1个应用程序项目总计30分钟

实践实验室：监控和性能调整30分钟

3个插件总计35分钟

[可选] 批量数据输入方法5分钟
小册子：监控和调整15分钟
模块 6 术语表：监控和调整15分钟

在本模块中，您将进行一次实践实验，探索使用 Spark 进行数据处理的两个关键方面：使用弹性分布式数据集（RDD）和从 JSON 数据构建 DataFrames。您还将在 RDD 和 DataFrames 上应用各种转换和操作，以获得洞察力并有效处理数据。此外，您还将在结业项目中应用所学知识，通过从 CSV 文件加载数据并使用 Spark SQL 应用转换和操作来创建 DataFrame。最后，将根据您的课程学习情况对您进行评估。