Yonsei University

大数据 新兴技术

Jong-Moon Chung

位教师:Jong-Moon Chung

31,406 人已注册

包含在 Coursera Plus

深入了解一个主题并学习基础知识。
4.7

(307 条评论)

初级 等级
无需具备相关经验
灵活的计划
3 周 在 10 小时 一周
自行安排学习进度
94%
大多数学生喜欢此课程
深入了解一个主题并学习基础知识。
4.7

(307 条评论)

初级 等级
无需具备相关经验
灵活的计划
3 周 在 10 小时 一周
自行安排学习进度
94%
大多数学生喜欢此课程

要了解的详细信息

可分享的证书

添加到您的领英档案

授课语言:英语(English)

了解顶级公司的员工如何掌握热门技能

Petrobras, TATA, Danone, Capgemini, P&G 和 L'Oreal 的徽标

积累特定领域的专业知识

本课程是 新兴技术:从智能手机、物联网到大数据 专项课程 专项课程的一部分
在注册此课程时,您还会同时注册此专项课程。
  • 向行业专家学习新概念
  • 获得对主题或工具的基础理解
  • 通过实践项目培养工作相关技能
  • 获得可共享的职业证书

该课程共有6个模块

第一个模块 "大数据排名和产品 "重点关注大数据硬件、软件和专业服务的关系和市场份额。通过这些信息,我们可以了解未来的行业、产品、服务、学校和政府组织将如何受到大数据技术的影响。为了更深入地了解世界顶级大数据产品线和服务类型,讲座概述了主要的大数据公司,包括IBM、SAP、甲骨文、HPE、Splunk、戴尔、Teradata、微软、思科和AWS。为了了解大数据技术的威力,讲解了大数据分析与传统数据分析的区别。随后,讲解了大数据技术的 4 V 大挑战,即海量数据的数量、种类、速度和真实性问题。在这些介绍信息的基础上,介绍了沃尔玛、亚马逊和花旗银行用于增加全球投资洞察力、帮助定位新商店和工厂以及运行实时推荐系统的大数据技术。

涵盖的内容

6个视频2个作业

第二个模块 "大数据与 Hadoop "侧重于 Hadoop 的特点和操作,Hadoop 是谷歌最初使用的大数据系统。讲座解释了 MapReduce、HDFS(Hadoop 分布式文件系统)和数据块处理的功能。这些功能在被分配为 NameNode 或 DataNodes 角色的节点集群上执行,数据处理由 JobTracker 和 TaskTracker 进行,讲座中将对此进行讲解。此外,还讲解了元数据类型的特点以及 Hadoop 和 SQL(结构化查询语言)在数据分析过程中的差异。然后介绍 Hadoop Release Series,其中包括 Hadoop YARN(Yet Another Resource Negotiator)、HDFS Federation 和 HDFS HA(High Availability)大数据技术的说明。

涵盖的内容

8个视频2个作业

第三个模块 "Spark "主要介绍目前全球最流行的大数据技术 Spark 的操作和特点。讲座首先介绍了 Spark 和 Hadoop 在数据分析特点上的差异,然后深入介绍了基于 RDD(弹性分布式数据集)、Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和 GraphX 核心单元的 Spark 大数据处理的特点。详细介绍了基于 Spark 转换和操作形成的 Spark DAG(有向无环图)阶段和流水线流程的特点。特别是,介绍了懒惰转换和 DAG 操作的定义和优势,以及 Spark 变量和序列化的特点。此外,还介绍了基于 Mesos、Standalone 和 YARN 的 Spark 集群操作过程。

涵盖的内容

11个视频2个作业

第四模块 "Spark ML & Streaming "侧重于介绍 Spark ML(机器学习)的工作原理以及如何进行 Spark 流操作。Spark ML 算法包括特征化、管道、持久化和实用程序,这些算法在 RDD(弹性分布式数据集)上运行,以从海量数据集中提取信息。本讲座讲解了基于 DataFrame 的 API 的特点,这是 spark.ml 软件包中的主要 ML API。首先介绍基于相关性和假设检验(P 值)的 Spark ML 基本统计算法,然后介绍基于线性模型、奈夫贝叶斯和决策树技术的 Spark ML 分类和回归算法。然后讲解了 Spark 流的特点、流输入和输出以及流接收器类型(包括基本、自定义和高级),接着介绍了 Spark 流流程和 DStream(离散流)如何为实时和近实时应用实现大数据流操作。

涵盖的内容

4个视频2个作业

第五模块 "Storm "主要介绍 Storm 大数据系统的特点和操作。讲座首先介绍了 Storm、Spark 和 Hadoop 技术在数据分析特性上的差异。然后介绍了基于 nimbus、spouts 和 bolts 的 Storm 大数据处理的特点,接着详细介绍了 Storm 流、监督器和 ZooKeeper。进一步详细介绍了 Storm 可靠和不可靠的喷嘴和螺栓,然后介绍了 Storm DAG(有向无环图)和数据流队列管理的优势。此外,还介绍了使用基于 Storm 的快速实时应用程序的优势,其中包括实时分析、在线 ML(机器学习)、连续计算、DRPC(分布式远程过程调用)和 ETL(提取、转换、加载)。

涵盖的内容

5个视频2个作业

第六个也是最后一个模块 "IBM SPSS 统计项目 "的重点是提供世界上最著名、使用最广泛的大数据统计分析系统之一的经验。首先,讲座从如何设置和使用 IBM SPSS Statistics 开始,继续介绍如何使用 IBM SPSS Statistics 获得企业数据分析经验。然后,在使用 IBM SPSS Statistics 大数据系统的基础上,进行两个项目的数据处理统计结果。通过这些项目,学生可以发现使用、分析和绘制数据集之间关系图表的新方法,还可以使用 IBM SPSS Statistics 对统计结果进行比较。

涵盖的内容

1个视频1次同伴评审

获得职业证书

将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。

位教师

授课教师评分
4.8 (87个评价)
Jong-Moon Chung
Yonsei University
12 门课程387,906 名学生

提供方

Yonsei University

从 数据管理 浏览更多内容

人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.
自 2018开始学习的学生
''能够按照自己的速度和节奏学习课程是一次很棒的经历。只要符合自己的时间表和心情,我就可以学习。'
Jennifer J.
自 2020开始学习的学生
''我直接将从课程中学到的概念和技能应用到一个令人兴奋的新工作项目中。'
Larry W.
自 2021开始学习的学生
''如果我的大学不提供我需要的主题课程,Coursera 便是最好的去处之一。'
Chaitanya A.
''学习不仅仅是在工作中做的更好:它远不止于此。Coursera 让我无限制地学习。'

学生评论

4.7

307 条评论

  • 5 stars

    79.54%

  • 4 stars

    14.61%

  • 3 stars

    2.92%

  • 2 stars

    1.29%

  • 1 star

    1.62%

显示 3/307 个

MC
4

已于 Nov 2, 2023审阅

RS
5

已于 Sep 25, 2020审阅

VD
5

已于 May 11, 2021审阅

Coursera Plus

通过 Coursera Plus 开启新生涯

无限制访问 10,000+ 世界一流的课程、实践项目和就业就绪证书课程 - 所有这些都包含在您的订阅中

通过在线学位推动您的职业生涯

获取世界一流大学的学位 - 100% 在线

加入超过 3400 家选择 Coursera for Business 的全球公司

提升员工的技能,使其在数字经济中脱颖而出

常见问题

¹ 本课程的部分作业采用 AI 评分。对于这些作业,将根据 Coursera 隐私声明使用您的数据。