本课程将使您掌握使用 Apache Spark 在大数据集上扩展数据科学和机器学习(ML)任务的技能。现实世界中的大多数机器学习工作都涉及超大数据集,超出了单台计算机的 CPU、内存和存储限制。
Apache Spark 是一个开源框架,它利用集群计算和分布式存储,以高效、低成本的方式处理超大数据集。完成本课程后,您将能够: - 实际了解 Apache Spark,并将其应用于解决涉及小型和大型数据的机器学习问题 - 了解如何编写并行代码,使其能够在数千个 CPU 上运行。 - 利用大型计算集群,使用 Apache SparkML Pipelines 在 Petabytes 数据上应用机器学习算法。 - 消除传统机器学习框架在数据不适合计算机主内存时产生的内存外错误 - 并行测试数千个不同的 ML 模型,以找到性能最佳的模型 - 这是许多成功的 Kagglers 使用的技术 - (可选)使用 Apache SparkSQL 和 Apache Spark DataFrame API 在超大数据集上运行 SQL 语句。 现在就报名学习处理大数据的机器学习技术,这些技术已被阿里巴巴、苹果、亚马逊、百度、eBay、IBM、NASA、三星、SAP、TripAdvisor、雅虎、Zalando 等公司成功应用、Zalando 等公司。 注意:在课程期间,您将在 IBM 免费提供的 Apache Spark 集群上实践运行机器学习任务,课程结束后您可以继续使用该集群。 先决条件: - Python 编程基础 - 机器学习基础(本课程还提供可选介绍视频) - 可选内容的基本 SQL 技能 在学习本课程之前,建议先学习以下课程(除非您已掌握相关技能) https://hua.dididi.sbs/learn/python-for-applied-data-science 或类似课程 https://hua.dididi.sbs/learn/machine-learning-with-python 或类似课程 https://hua.dididi.sbs/learn/sql-data-science,用于可选讲座