这门自定进度的 IBM 课程将向您传授有关大数据的所有知识!您将熟悉大数据的特点及其在大数据分析中的应用。您还将获得使用 Apache Hadoop 和 Apache Spark 等大数据处理工具的实践经验。


您将学到什么
解释大数据的影响,包括使用案例、工具和处理方法。
介绍 Apache Hadoop 架构、生态系统、实践和用户相关应用,包括 Hive、HDFS、HBase、Spark 和 MapReduce。
应用 Spark 编程基础,包括数据帧、数据集和 Spark SQL 的并行编程基础。
使用 Spark 的 RDD 和数据集,使用 Catalyst 和 Tungsten 优化 Spark SQL,以及使用 Spark 的开发和运行环境选项。
您将获得的技能
要了解的详细信息

添加到您的领英档案
14 项作业
了解顶级公司的员工如何掌握热门技能

积累特定领域的专业知识
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 获得可共享的职业证书

该课程共有7个模块
在本模块中,您将从大数据的最新定义开始学习大数据知识。您将通过大数据使用案例探索大数据对日常个人任务和业务交易的影响。您还将了解大数据如何使用并行处理、扩展和数据并行性。此外,您还将探索常用的大数据工具,并解释开源在大数据中的作用。最后,您将超越炒作,探索其他大数据观点。
涵盖的内容
8个视频1篇阅读材料2个作业2个插件
在本模块中,您将获得对 Apache Hadoop 架构、生态系统、实践和常用应用程序(包括分布式文件系统 (HDFS)、MapReduce、Hive 和 HBase)的基本了解。在使用 Hive 查询添加的数据、使用 Docker 启动单节点 Hadoop 集群和运行 MapReduce 作业时,您还将在动手实验室中获得实用技能。
涵盖的内容
6个视频1篇阅读材料2个作业3个应用程序项目2个插件
在本模块中,您将关注流行的 Apache Spark 平台,探索 Apache Spark 和分布式计算的属性和优势。您将获得关于函数式编程和 Lambda 函数的重要见解。您还将探索 Apache Spark 中的弹性分布式数据集(RDDs)、并行编程、弹性,并将 RDDs 与 Apache Spark 的并行编程联系起来。然后,您将深入学习 Apache Spark 的其他组件,了解 Apache Spark 如何扩展大数据。使用大数据意味着需要使用查询,包括使用 SQL 进行结构化查询。您还将了解 Spark SQL 和 DataFrame 查询的功能、部分和优势,并发现 DataFrame 如何与 Spark SQL 配合使用。
涵盖的内容
5个视频1篇阅读材料2个作业2个应用程序项目2个插件
在本模块中,您将了解弹性分布式数据集(RDD)、其在 Apache Spark 中的用途以及 RDD 转换和操作。您将比较数据集与 Spark 最新数据抽象 DataFrames 的使用。您将学会识别和应用基本的 DataFrame 操作。您将探索 Apache Spark SQL 优化,了解 Spark SQL 和内存优化如何从使用 Catalyst 和 Tungsten 中受益。最后,您将通过指导动手实验来强化技能,创建表格视图并应用数据聚合技术。
涵盖的内容
5个视频1篇阅读材料2个作业2个应用程序项目4个插件
在本模块中,您将了解 Spark 如何处理应用程序提交的请求,并学习如何使用 Spark 应用程序用户界面跟踪工作。由于 Spark 应用程序的工作是在集群上进行的,因此您需要能够识别 Apache 集群管理器、其组件和优点。您还将了解如何与每个集群管理器连接,以及如何和何时需要建立本地、独立的 Spark 实例。接下来,您将学习 Apache Spark 应用程序提交,包括使用 Spark 的统一接口 "spark-submit",并了解选项和依赖关系。您还将描述和应用提交应用程序的选项,识别外部应用程序依赖性管理技术,并列出 Spark Shell 的优势。您还将了解 Spark 静态和动态配置选项的推荐实践,并进行上机实验,在 IBM Cloud 上使用 Apache Spark 并在 Kubernetes 上运行 Spark。
涵盖的内容
6个视频2篇阅读材料3个作业2个应用程序项目4个插件
平台和应用程序需要监控和调整,以管理不可避免发生的问题。在本模块中,您将学习如何连接 Apache Spark 用户界面 Web 服务器,并使用相同的用户界面 Web 服务器管理应用程序进程。 您还将识别常见的 Apache Spark 应用程序问题,学习使用应用程序用户界面调试问题和查找相关日志文件。此外,您还将通过动手实验室发现并获得有关 Spark 如何管理内存和处理器资源的实际知识。
涵盖的内容
5个视频1篇阅读材料2个作业1个应用程序项目3个插件
在本模块中,您将进行一次实践实验,探索使用 Spark 进行数据处理的两个关键方面:使用弹性分布式数据集(RDD)和从 JSON 数据构建 DataFrames。您还将在 RDD 和 DataFrames 上应用各种转换和操作,以获得洞察力并有效处理数据。此外,您还将在结业项目中应用所学知识,通过从 CSV 文件加载数据并使用 Spark SQL 应用转换和操作来创建 DataFrame。最后,将根据您的课程学习情况对您进行评估。
涵盖的内容
3篇阅读材料1个作业2个应用程序项目2个插件
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
位教师



提供方
从 数据管理 浏览更多内容
- 状态:免费试用
- 状态:免费试用
Johns Hopkins University
- 状态:免费试用
Johns Hopkins University
人们为什么选择 Coursera 来帮助自己实现职业发展




学生评论
458 条评论
- 5 stars
66.08%
- 4 stars
19.34%
- 3 stars
8.04%
- 2 stars
3.04%
- 1 star
3.47%
显示 3/458 个
已于 May 1, 2022审阅
hands on lab and quizzes at the end of each session was very helpful
已于 Jan 15, 2024审阅
Great program to explore more about AI and Big Data
已于 Jan 17, 2025审阅
I have learned a lot from this course, and hopefully it would be helping me throughout my career ahead.
常见问题
要获取课程资料、作业和证书,您需要在注册课程时购买证书体验。 您可以尝试免费试听,或申请资助。课程可能提供 "完整课程,无证书"。通过该选项,您可以查看所有课程资料,提交必要的评估,并获得最终成绩。这也意味着您无法购买证书体验。
注册课程后,您就可以访问证书中的所有课程,并在完成作业后获得证书。您的电子证书将被添加到您的 "成就 "页面--在那里,您可以打印证书或将其添加到您的 LinkedIn 个人资料中。
更多问题
提供助学金,