在本课程中,您将学习到几种算法,它们可以在与环境的试错互动基础上学习接近最优的策略--从代理自身的经验中学习。从实际经验中学习之所以引人注目,是因为它不需要事先了解环境的动态,但仍能达到最佳行为。我们将介绍直观简单但功能强大的蒙特卡洛方法和时差学习方法(包括 Q 学习)。在课程的最后,我们将研究如何获得两全其美的方法:结合基于模型的规划(类似于动态编程)和时差更新的算法,以从根本上加快学习速度。 课程结束后,您将能够: - 理解时差学习和蒙特卡洛这两种从采样经验中估计价值函数的策略 - 理解在模型中使用采样经验而不是动态编程扫描时探索的重要性 - 理解蒙特卡洛与动态编程和 TD 之间的联系。
了解顶级公司的员工如何掌握热门技能

积累特定领域的专业知识
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 获得可共享的职业证书

该课程共有5个模块
欢迎来到强化学习专业的第二门课程:由阿尔伯塔大学、Onlea 和 Coursera 联合开设。在这个课前模块中,您将认识您的讲师,并了解课程的内容。请务必在 "见面和问候 "部分向同学们介绍自己!
涵盖的内容
2个视频2篇阅读材料1个讨论话题
本周你将学习如何仅利用从环境中获取的经验样本来估计价值函数和最优策略。本模块是我们向增量学习方法迈出的第一步,这种方法是从代理自身与世界的交互中学习,而不是从世界模型中学习。您将学习使用蒙特卡洛方法(即使用抽样回报的方法)进行预测和控制的政策内和政策外方法。您还将重新认识探索问题,但更多的是在 RL 中,而不是在匪帮中。
涵盖的内容
11个视频3篇阅读材料1个作业1个编程作业1个讨论话题
本周,您将学习强化学习中最基本的概念之一:时差(TD)学习。时差学习结合了蒙特卡洛和动态编程(DP)方法的一些特点。TD 方法与蒙特卡洛方法类似,可以从代理与世界的交互中学习,而不需要模型知识。TD 方法与 DP 方法的相似之处在于它们可以引导,因此可以在线学习--无需等到一集结束。您将看到 TD 如何通过引导比蒙特卡罗学习更有效。在本模块中,我们首先关注用于预测的 TD,然后在下一模块中讨论用于控制的 TD。本周,您将在一个模拟域中实施 TD,以估计固定策略的值函数。
涵盖的内容
6个视频2篇阅读材料1个作业1个编程作业1个讨论话题
本周,您将学习使用时差学习进行控制,作为一种通用的策略迭代策略。您将看到基于引导和贝尔曼方程的三种不同的控制算法:Sarsa、Q-learning 和 Expected Sarsa。您将看到政策内和政策外控制方法之间的一些差异,以及 Expected Sarsa 是这两种方法的统一算法。您将在 Cliff World 上实现 Expected Sarsa 和 Q-learning。
涵盖的内容
9个视频3篇阅读材料1个作业1个编程作业1个讨论话题
到目前为止,您可能认为有模型学习和无模型学习是两种截然不同的策略,而且在某些方面是相互竞争的:使用动态编程法进行规划与通过 TD 方法进行基于样本的学习。本周,我们将利用 Dyna 架构统一这两种策略。您将学习如何从数据中估计模型,然后使用该模型生成假设经验(有点像做梦),从而与 Q-learning 等基于样本的方法相比,显著提高样本效率。此外,您还将了解到如何设计能够应对不准确模型的学习系统。
涵盖的内容
11个视频4篇阅读材料2个作业1个编程作业1个讨论话题
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
位教师


从 机器学习 浏览更多内容
- 状态:免费试用
University of Alberta
- 状态:免费试用
Illinois Tech
- 状态:免费试用
University of Alberta
- 状态:免费试用
University of Washington
人们为什么选择 Coursera 来帮助自己实现职业发展




学生评论
1,253 条评论
- 5 stars
82.29%
- 4 stars
13.23%
- 3 stars
2.79%
- 2 stars
0.63%
- 1 star
1.03%
显示 3/1253 个
已于 Feb 27, 2020审阅
Itwasgoodinsubstane but there is plenty of issues with the automated grader. you spend most time dealing with the letter not on actual learning of the matter.
已于 Mar 13, 2022审阅
The videos are very clear and do a good job explaining the material from the textbook. The assignments are relevant and just right in terms of length and difficulty.
已于 Feb 14, 2021审阅
Excellent course that naturally extends the first specialization course. The application examples in programming are very good and I loved how RL gets closer and closer to how a living being thinks.
常见问题
要获取课程资料、作业和证书,您需要在注册课程时购买证书体验。 您可以尝试免费试听,或申请资助。课程可能提供 "完整课程,无证书"。通过该选项,您可以查看所有课程资料,提交必要的评估,并获得最终成绩。这也意味着您无法购买证书体验。
注册课程后,您就可以访问专项课程中的所有课程,完成作业后还可以获得证书。您的电子证书将添加到您的 "成就 "页面--在那里,您可以打印证书或将其添加到您的 LinkedIn 个人资料中。
是的。在特定的学习课程中,如果您付不起注册费,可以申请助学金或奖学金。如果您选择的学习课程有助学金或奖学金,您可以在说明页面找到申请链接。
更多问题
提供助学金,