准备好提升您的 GenAI 技能了吗?进入令人兴奋的多模态 AI 世界吧!在这里,语言、图像和语音将共同构建更智能、更具交互性的应用程序。 在本实践课程中,您将学习如何构建跨模态的系统,从创建 AI 驱动的故事讲述者和会议助手,到开发图像字幕工具和视频生成应用程序。
通过 Coursera Plus 提高技能,仅需 239 美元/年(原价 399 美元)。立即节省

您将学到什么
在短短 3 周内,掌握构建多模态生成式 AI 应用程序所需的就业就绪技能
了解多模态 AI 的基本概念和挑战,包括文本、语音、图像和视频的整合
使用最先进的模型和框架(如 IBM 的 Granite、Meta 的 Llama、OpenAI 的 Whisper、DALL-E 和 Sora)构建多模态 AI 应用程序
使用 IBM watsonx.ai、Hugging Face、Flask 和 Generative AI 开发多模态 AI 解决方案,包括聊天机器人和图像/视频生成模型
您将获得的技能
要了解的详细信息

可分享的证书
添加到您的领英档案
作业
6 项作业
授课语言:英语(English)
了解顶级公司的员工如何掌握热门技能

积累 软件开发 领域的专业知识
本课程是 IBM RAG 和 Agentic AI 专业证书 专项课程的一部分
在注册此课程时,您还会同时注册此专业证书。
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 通过 IBM 获得可共享的职业证书

从 软件开发 浏览更多内容

Pragmatic AI Labs
状态:免费试用
状态:免费试用
人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.
自 2018开始学习的学生
''能够按照自己的速度和节奏学习课程是一次很棒的经历。只要符合自己的时间表和心情,我就可以学习。'

Jennifer J.
自 2020开始学习的学生
''我直接将从课程中学到的概念和技能应用到一个令人兴奋的新工作项目中。'

Larry W.
自 2021开始学习的学生
''如果我的大学不提供我需要的主题课程,Coursera 便是最好的去处之一。'

Chaitanya A.
''学习不仅仅是在工作中做的更好:它远不止于此。Coursera 让我无限制地学习。'
学生评论
- 5 stars
84%
- 4 stars
12%
- 3 stars
2%
- 2 stars
0%
- 1 star
2%
显示 3/50 个
MH
已于 Oct 26, 2025审阅
Wow, It was next Level Experience to learn the Multimodal Gen AI Development. Truly Amazing.






