使用函数式概念来处理分布在集群上的大数据在工业领域非常普遍,可以说这是函数式思想在工业领域的首次广泛应用。MapReduce 和 Hadoop,以及最近用 Scala 编写的快速、内存分布式集合框架 Apache Spark 的流行就证明了这一点。在本课程中,我们将了解如何使用 Spark 将数据并行范式扩展到分布式情况。我们将详细介绍 Spark 的编程模型,仔细了解它与我们熟悉的编程模型(如共享内存并行集合或顺序 Scala 集合)的不同之处和不同时间。通过 Spark 和 Scala 中的实践示例,我们将了解何时应考虑延迟和网络通信等与分布相关的重要问题,以及如何有效解决这些问题以提高性能。 学习成果。本课程结束时,您将能够:- 从持久化存储中读取数据并将其加载到 Apache Spark 中,- 使用 Spark 和 Scala 操作数据,- 以函数式风格表达数据分析算法,- 认识如何在 Spark 中避免洗牌和重新计算:您应该至少有一年的编程经验。熟练掌握 Java 或 C# 是理想的选择,但熟练掌握其他语言(如 C/C++、Python、Javascript 或 Ruby)也足够了。您应该熟悉使用命令行。本课程适合在《并行编程:https://hua.dididi.sbs/learn/parprog1》之后学习。
通过 Coursera Plus 提高技能,仅需 239 美元/年(原价 399 美元)。立即节省

您将获得的技能
要了解的详细信息

添加到您的领英档案
了解顶级公司的员工如何掌握热门技能

积累特定领域的专业知识
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 获得可共享的职业证书

该课程共有4个模块
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
位教师

从 算法 浏览更多内容
状态:预览École Polytechnique Fédérale de Lausanne
人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.
学生评论
- 5 stars
73%
- 4 stars
21.03%
- 3 stars
4.42%
- 2 stars
0.65%
- 1 star
0.88%
显示 3/2600 个
已于 Jun 7, 2017审阅
The sessions where clearly explained and focused. Some of the exercises contained slightly confusing hints and information, but I'm sure those mistakes will be ironed out in future iterations. Thanks!
已于 Dec 31, 2017审阅
Great course to get going with Apache Spark. Would recommend to someone who has java or scala experience already and wants to learn about distributed processing.
已于 Apr 2, 2020审阅
some of the questions are unnecessarily specific (i.e. needs to be rounded to 1 decimal and sorted exactly for it to work)but otherwise, great lecturer and great content






