掌握多模态生成式人工智能技能能找到什么工作？

多模态生成式人工智能（系统集成了文本、语音、图像和视频）方面的技能对人工智能开发人员、机器学习工程师、多模态人工智能研究人员以及专门从事人工智能驱动的用户体验的全栈开发人员等职位的需求量很大。

构建多模态生成式人工智能应用程序需要机器学习经验吗？

不一定。如果你是一名 Python 开发人员，就可以使用 IBM watsonx.ai、Flask 和 Gradio 等工具开始构建生成式人工智能，无需高级 ML 背景。

我什么时候能看到讲座和作业？

要获得课程资料、作业和证书，您需要在注册课程时购买证书体验。您可以尝试免费试听，或申请资助。课程可能提供 "完整课程，无证书"。通过该选项，您可以查看所有课程资料，提交必要的评估，并获得最终成绩。这也意味着您无法购买证书体验。

订阅此证书能得到什么？

注册课程后，您就可以访问证书中的所有课程，并在完成作业后获得证书。您的电子证书将被添加到您的 "成就 "页面--在那里，您可以打印证书或将其添加到您的 LinkedIn 个人资料中。

构建多模态生成式 AI 应用程序

构建多模态生成式 AI 应用程序

Q: 我什么时候能看到讲座和作业？

要获得课程资料、作业和证书，您需要在注册课程时购买证书体验。 您可以尝试免费试听，或申请资助。课程可能提供 "完整课程，无证书"。通过该选项，您可以查看所有课程资料，提交必要的评估，并获得最终成绩。这也意味着您无法购买证书体验。

本课程是 IBM RAG 和 Agentic AI 专业证书的一部分

位教师：Hailey Quach

11,789 人已注册

包含在中

了解更多

3个模块

深入了解一个主题并学习基础知识。

58 条评论

中级等级

推荐体验

8 小时完成

灵活的计划

自行安排学习进度

3个模块

深入了解一个主题并学习基础知识。

58 条评论

中级等级

推荐体验

8 小时完成

灵活的计划

自行安排学习进度

您将学到什么

在短短 3 周内，掌握构建多模态生成式 AI 应用程序所需的就业就绪技能
了解多模态 AI 的基本概念和挑战，包括文本、语音、图像和视频的整合
使用最先进的模型和框架（如 IBM 的 Granite、Meta 的 Llama、OpenAI 的 Whisper、DALL-E 和 Sora）构建多模态 AI 应用程序
使用 IBM watsonx.ai、Hugging Face、Flask 和 Generative AI 开发多模态 AI 解决方案，包括聊天机器人和图像/视频生成模型

您将获得的技能

您将学习的工具

要了解的详细信息

可分享的证书

添加到您的领英档案

作业

6 项作业

授课语言：英语（English）

91%

of learners achieved a positive career outcome

了解顶级公司的员工如何掌握热门技能

了解关于 Coursera for Business 的更多信息

Petrobras, TATA, Danone, Capgemini, P&G 和 L'Oreal 的徽标

积累软件开发领域的专业知识

本课程是 IBM RAG 和 Agentic AI 专业证书专项课程的一部分

在注册此课程时，您还会同时注册此专业证书。

向行业专家学习新概念
获得对主题或工具的基础理解
通过实践项目培养工作相关技能
通过 IBM 获得可共享的职业证书

该课程共有3个模块

准备好提升您的 GenAI 技能了吗？进入令人兴奋的多模态 AI 世界吧！在这里，语言、图像和语音将共同构建更智能、更具交互性的应用程序。在本实践课程中，您将学习如何构建跨模态的系统，从创建 AI 驱动的故事讲述者和会议助手，到开发图像字幕工具和视频生成应用程序。

您将获得使用真实世界工具的经验，如 IBM 的 Granite、OpenAI 的 Whisper、Sora 和 DALL-E、Meta 的 Llama、Mistral 的 Mixtral 和 Gradio。此外，您还将探索结合文本、语音和 Visualization 数据的多模态搜索、问题解答和检索系统。课程结束时，您将能够使用 Python 以及 Flask 和 Gradio 等框架设计和构建全栈多模态 AI 解决方案。如果您希望获得构建下一代 AI 应用程序所需的技能，请立即报名，为您的 AI 职业生涯增添动力！

单元详情

本模块深入介绍多模态人工智能，重点关注人工智能系统如何处理和整合多种数据类型，包括文本、语音和图像。您将探索多模态人工智能的核心概念和面临的一些挑战，掌握文本和语音处理技术的基础技能。通过动手实验，您将把人工智能驱动的讲故事、语音到文本转录和文本到语音合成应用到现实世界的应用中，例如人工智能生成的有声读物和自动会议助理。

涵盖的内容

5个视频2篇阅读材料2个作业2个应用程序项目6个插件

5个视频总计34分钟

视频：课程介绍5分钟
RAG 和 Agentic AI 专业证书概述6分钟
多模态人工智能简介8分钟
文本到语音技术8分钟
语音转文本技术7分钟

2篇阅读材料总计5分钟

阅读课程概述3分钟
阅读：摘要和要点2分钟

2个作业总计36分钟

练习测验：多模态人工智能入门：文本和语音处理15分钟
分级测验：多模态 AI 基础21分钟

2个应用程序项目总计75分钟

实验室：使用 Mistral 和 gTTS 创建您的个人故事讲述者30分钟
实验室：使用 Whisper、LangChain 和 Gradio 构建会议助手45分钟

6个插件总计32分钟

完成课程的有用提示3分钟
阅读：什么是多模态生成式人工智能？5分钟
阅读什么是计算机视觉？7分钟
阅读：文本处理、语音处理和文本到语音7分钟
阅读：多模态人工智能集成的挑战5分钟
小抄：多模态人工智能基础5分钟

本 Modulation 探索人工智能流程如何通过将图像和视频与文本进行 Data Integrity 来生成 Visual 数据。您将研究文本到图像/图像到文本和文本到视频/视频到文本模型、图像字幕以及有效的多模态 AI 系统所需的融合技术。通过动手实验，您将应用 DALL-E 和 Sora 等最先进的模型，根据文本提示生成图像和视频。此外，您还将使用 Meta 的 Llama 4 实现一个图像字幕系统，从而获得将视觉模型和语言模型结合起来进行实际应用的实践经验。

涵盖的内容

2个视频1篇阅读材料2个作业2个应用程序项目3个插件

2个视频总计15分钟

用 Meta's Llama 理解图像标题7分钟
演示：使用 OpenAI 的 Sora 生成文本到视频8分钟

1篇阅读材料总计3分钟

阅读：摘要和要点3分钟

2个作业总计31分钟

图像生成和字幕10分钟
分级测验：整合视觉和视频模式21分钟

2个应用程序项目总计50分钟

实验室DALL-E 图像生成新手指南20分钟
实验室使用 watsonx 和 IBM 的 Granite 构建图像字幕系统30分钟

3个插件总计35分钟

阅读文字转视频和图像转视频技术简介12分钟
阅读：多模态视觉模型在现实场景中的优势、局限和实际应用8分钟
小抄：整合视觉和视频模式15分钟

最后一个 Module 探索先进的多模态 AI 应用，整合图像、文本和基于检索的系统，构建创新解决方案。您将深入学习多模态检索和搜索、多模态问题解答（QA）和聊天机器人，了解跨模态检索技术如何增强搜索引擎和推荐系统。此外，您还将学习如何整合 Visualization 和文本数据来改进聊天机器人的交互。通过动手实验，您将运用最先进的模型和框架，使用 Flask 构建具有多模态功能的全功能网络应用程序。