"微调 Large Language Model(LLM)对于使其符合特定业务需求、提高准确性和优化性能至关重要。在当今 AI 驱动的世界中,企业依靠微调模型来生成精确、可操作的见解,从而推动创新和效率。本课程让有抱负的 Generative AI 工程师掌握雇主们积极寻求的紧缺技能。 您将探索因果 LLM 的高级微调技术,包括指令调整、奖励建模和直接偏好优化。了解 LLM 如何作为生成响应的概率策略,以及如何使用抱抱脸等工具使其与人类偏好保持一致。您将深入学习奖励计算、来自人类反馈的强化学习(RLHF)、近似策略优化(PPO)、PPO 训练器和直接偏好优化(DPO)的最佳策略。 课程中的实践实验室将提供指令调整、奖励建模、PPO 和 DPO 的实际经验,让您能够自信地微调 LLM,以实现具有重大影响的应用。 在短短两周内,掌握可胜任工作的 Generative AI 技能!今天就报名,推动您在 AI 领域的职业发展!"


了解顶级公司的员工如何掌握热门技能

积累特定领域的专业知识
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 获得可共享的职业证书

该课程共有2个模块
在本模块中,您将探索通过指令调整和奖励建模来微调 Large Language Model (LLM) 的高级技术。首先,您将定义指令调整并学习其过程,包括数据集加载、文本生成管道和使用拥抱脸训练参数。然后,您将深入学习奖励建模,在此过程中,您将预处理数据集,应用低阶适应(LoRA)配置,并量化质量响应,以指导模型优化并与人类偏好保持一致。您还将描述并使用奖励训练器和奖励模型损失函数。此外,实践实验室将通过指令调整和奖励模型的实际经验来强化您的学习,使您能够有效地为目标任务定制 LLM。
涵盖的内容
6个视频4篇阅读材料2个作业2个应用程序项目3个插件
在本模块中,您将探索使用人类反馈强化学习 (RLHF)、近似策略优化 (PPO) 和直接偏好优化 (DPO) 来微调 Large Language Model (LLM) 的高级技术。首先,您将介绍 LLM 如何作为概率分布发挥作用,以及如何将其 Transformer 为策略,从而根据输入文本生成响应。您将研究策略和语言模型之间作为参数(如欧米茄)函数的关系,以及如何利用人类反馈计算奖励。这包括训练回复 Sample、评估代理性能,以及使用 PPO 为 Sentiment Analysis 等任务定义评分函数。您还能解释 PPO 配置、Learning Rate 以及 PPO 培训师在使用抱抱脸工具优化 Chatbot 响应中的作用。Modulation 进一步介绍了 DPO,这是一种更直接、更高效的使模型与人类偏好相一致的方法。虽然介绍了 PPO 和强化学习等复杂的主题,但并不要求您在本课程中深入理解。通过本 Modulation 中的动手实验,您可以练习应用 RLHF 和 DPO。为支持您的学习,本模块还提供了小抄和术语表,供您快速参考。
涵盖的内容
10个视频5篇阅读材料3个作业2个应用程序项目4个插件
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
提供方
从 机器学习 浏览更多内容
- 状态:免费试用
- 状态:免费试用
- 状态:免费试用
人们为什么选择 Coursera 来帮助自己实现职业发展




学生评论
105 条评论
- 5 stars
73.83%
- 4 stars
8.41%
- 3 stars
4.67%
- 2 stars
4.67%
- 1 star
8.41%
显示 3/105 个
已于 Mar 10, 2025审阅
The course gave me a good understanding of fine-tuning LLMs. It made complex topics easy to learn.
已于 Aug 20, 2025审阅
An excellent course with a wealth of high-quality material, featuring highly informative lessons such as DPO and PPO.
已于 Mar 10, 2025审阅
This course is a great resource for learners, providing deep insights and practical skills in fine-tuning large language models for advanced AI applications.
常见问题
完成该课程大约需要 3-5 个小时,因此您只需两周时间就能掌握给雇主留下深刻印象所需的就业技能!
本课程属于中级水平,因此要想获得最大的学习效果,您必须掌握 Python、大型语言模型 (LLM)、强化学习和指令调谐的基本知识。您还应该熟悉机器学习和神经网络的概念。
本课程是具有 LLMs 的 Generative AI Engineering 专项课程的一部分。完成专项课程后,您将具备胜任 AI 工程师、数据科学家、机器学习工程师、深度学习工程师、AI 工程师以及寻求与 LLMs 合作的开发人员等工作角色的技能和信心。
更多问题
提供助学金,