每一次使用谷歌搜索,每一次使用 Facebook、Twitter、Instagram 或任何其他 SNS(社交网络服务),每一次在亚马逊网站的推荐列表中购买商品,都是在使用大数据系统。此外,大数据技术每天都在为您的智能手机、智能手表、Alexa、Siri 和汽车(如果是新型号)提供支持。目前,全球顶级公司都在使用大数据技术,每家公司都需要先进的大数据技术支持。简而言之,大数据技术不是公司的可选项,而是公司生存和发展的必需品。因此,现在正是了解什么是大数据以及如何利用大数据为公司带来优势的好时机。这 6 个模块的课程首先关注大数据硬件、软件和专业服务的全球行业市场份额排名,然后涵盖全球顶级大数据产品线和主要大数据公司的服务类型。然后,讲座重点介绍了如何基于世界上最流行的三种大数据技术 Hadoop、Spark 和 Storm 进行大数据分析。最后一部分重点介绍世界上最著名、应用最广泛的大数据统计分析系统之一--IBM SPSS Statistics。本课程旨在帮助您在即将到来的大数据时代,更成功地制定企业战略规划。欢迎来到神奇的大数据世界!


了解顶级公司的员工如何掌握热门技能

积累特定领域的专业知识
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 获得可共享的职业证书

该课程共有6个模块
第一个模块 "大数据排名和产品 "重点关注大数据硬件、软件和专业服务的关系和市场份额。通过这些信息,我们可以了解未来的行业、产品、服务、学校和政府组织将如何受到大数据技术的影响。为了更深入地了解世界顶级大数据产品线和服务类型,讲座概述了主要的大数据公司,包括IBM、SAP、甲骨文、HPE、Splunk、戴尔、Teradata、微软、思科和AWS。为了了解大数据技术的威力,讲解了大数据分析与传统数据分析的区别。随后,讲解了大数据技术的 4 V 大挑战,即海量数据的数量、种类、速度和真实性问题。在这些介绍信息的基础上,介绍了沃尔玛、亚马逊和花旗银行用于增加全球投资洞察力、帮助定位新商店和工厂以及运行实时推荐系统的大数据技术。
涵盖的内容
6个视频2个作业
第二个模块 "大数据与 Hadoop "侧重于 Hadoop 的特点和操作,Hadoop 是谷歌最初使用的大数据系统。讲座解释了 MapReduce、HDFS(Hadoop 分布式文件系统)和数据块处理的功能。这些功能在被分配为 NameNode 或 DataNodes 角色的节点集群上执行,数据处理由 JobTracker 和 TaskTracker 进行,讲座中将对此进行讲解。此外,还讲解了元数据类型的特点以及 Hadoop 和 SQL(结构化查询语言)在数据分析过程中的差异。然后介绍 Hadoop Release Series,其中包括 Hadoop YARN(Yet Another Resource Negotiator)、HDFS Federation 和 HDFS HA(High Availability)大数据技术的说明。
涵盖的内容
8个视频2个作业
第三个模块 "Spark "主要介绍目前全球最流行的大数据技术 Spark 的操作和特点。讲座首先介绍了 Spark 和 Hadoop 在数据分析特点上的差异,然后深入介绍了基于 RDD(弹性分布式数据集)、Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和 GraphX 核心单元的 Spark 大数据处理的特点。详细介绍了基于 Spark 转换和操作形成的 Spark DAG(有向无环图)阶段和流水线流程的特点。特别是,介绍了懒惰转换和 DAG 操作的定义和优势,以及 Spark 变量和序列化的特点。此外,还介绍了基于 Mesos、Standalone 和 YARN 的 Spark 集群操作过程。
涵盖的内容
11个视频2个作业
第四模块 "Spark ML & Streaming "侧重于介绍 Spark ML(机器学习)的工作原理以及如何进行 Spark 流操作。Spark ML 算法包括特征化、管道、持久化和实用程序,这些算法在 RDD(弹性分布式数据集)上运行,以从海量数据集中提取信息。本讲座讲解了基于 DataFrame 的 API 的特点,这是 spark.ml 软件包中的主要 ML API。首先介绍基于相关性和假设检验(P 值)的 Spark ML 基本统计算法,然后介绍基于线性模型、奈夫贝叶斯和决策树技术的 Spark ML 分类和回归算法。然后讲解了 Spark 流的特点、流输入和输出以及流接收器类型(包括基本、自定义和高级),接着介绍了 Spark 流流程和 DStream(离散流)如何为实时和近实时应用实现大数据流操作。
涵盖的内容
4个视频2个作业
第五模块 "Storm "主要介绍 Storm 大数据系统的特点和操作。讲座首先介绍了 Storm、Spark 和 Hadoop 技术在数据分析特性上的差异。然后介绍了基于 nimbus、spouts 和 bolts 的 Storm 大数据处理的特点,接着详细介绍了 Storm 流、监督器和 ZooKeeper。进一步详细介绍了 Storm 可靠和不可靠的喷嘴和螺栓,然后介绍了 Storm DAG(有向无环图)和数据流队列管理的优势。此外,还介绍了使用基于 Storm 的快速实时应用程序的优势,其中包括实时分析、在线 ML(机器学习)、连续计算、DRPC(分布式远程过程调用)和 ETL(提取、转换、加载)。
涵盖的内容
5个视频2个作业
第六个也是最后一个模块 "IBM SPSS 统计项目 "的重点是提供世界上最著名、使用最广泛的大数据统计分析系统之一的经验。首先,讲座从如何设置和使用 IBM SPSS Statistics 开始,继续介绍如何使用 IBM SPSS Statistics 获得企业数据分析经验。然后,在使用 IBM SPSS Statistics 大数据系统的基础上,进行两个项目的数据处理统计结果。通过这些项目,学生可以发现使用、分析和绘制数据集之间关系图表的新方法,还可以使用 IBM SPSS Statistics 对统计结果进行比较。
涵盖的内容
1个视频1次同伴评审
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
位教师

从 数据管理 浏览更多内容
- 状态:预览
Coursera Instructor Network
- 状态:免费试用
Yonsei University
- 状态:免费试用
LearnQuest
- 状态:免费试用
Duke University
人们为什么选择 Coursera 来帮助自己实现职业发展




学生评论
307 条评论
- 5 stars
79.54%
- 4 stars
14.61%
- 3 stars
2.92%
- 2 stars
1.29%
- 1 star
1.62%
显示 3/307 个
已于 Nov 2, 2023审阅
Instructor has taught very nicley and gave extra real world knowledge about big data but I am giving 4 stars because improvement is needed in teaching things from different ways other than ppt.
已于 Sep 25, 2020审阅
good course get lot of knowledge how data is processed online
已于 May 11, 2021审阅
This course gives a very good exposure to basics of Big data.
常见问题
要获取课程资料、作业和证书,您需要在注册课程时购买证书体验。 您可以尝试免费试听,或申请资助。课程可能提供 "完整课程,无证书"。通过该选项,您可以查看所有课程资料,提交必要的评估,并获得最终成绩。这也意味着您无法购买证书体验。
注册课程后,您就可以访问专项课程中的所有课程,完成作业后还可以获得证书。您的电子证书将添加到您的 "成就 "页面--在那里,您可以打印证书或将其添加到您的 LinkedIn 个人资料中。
是的。在特定的学习课程中,如果您付不起注册费,可以申请助学金或奖学金。如果您选择的学习课程有助学金或奖学金,您可以在说明页面找到申请链接。
更多问题
提供助学金,
¹ 本课程的部分作业采用 AI 评分。对于这些作业,将根据 Coursera 隐私声明使用您的数据。