本 Modulation 探索人工智能流程如何通过将图像和视频与文本进行 Data Integrity 来生成 Visual 数据。您将研究文本到图像/图像到文本和文本到视频/视频到文本模型、图像字幕以及有效的多模态 AI 系统所需的融合技术。通过动手实验,您将应用 DALL-E 和 Sora 等最先进的模型,根据文本提示生成图像和视频。此外,您还将使用 Meta 的 Llama 4 实现一个图像字幕系统,从而获得将视觉模型和语言模型结合起来进行实际应用的实践经验。
涵盖的内容
2个视频1篇阅读材料2个作业2个应用程序项目3个插件
显示有关单元内容的信息
2个视频•总计15分钟
用 Meta's Llama 理解图像标题•7分钟
演示:使用 OpenAI 的 Sora 生成文本到视频•8分钟
1篇阅读材料•总计3分钟
阅读:摘要和要点•3分钟
2个作业•总计31分钟
图像生成和字幕•10分钟
分级测验:整合视觉和视频模式•21分钟
2个应用程序项目•总计50分钟
实验室DALL-E 图像生成新手指南•20分钟
实验室使用 watsonx 和 IBM 的 Granite 构建图像字幕系统•30分钟
3个插件•总计35分钟
阅读文字转视频和图像转视频技术简介•12分钟
阅读:多模态视觉模型在现实场景中的优势、局限和实际应用•8分钟
小抄:整合视觉和视频模式•15分钟
先进的多模式应用
第 3 单元•小时 后完成
单元详情
最后一个 Module 探索先进的多模态 AI 应用,整合图像、文本和基于检索的系统,构建创新解决方案。您将深入学习多模态检索和搜索、多模态问题解答(QA)和聊天机器人,了解跨模态检索技术如何增强搜索引擎和推荐系统。此外,您还将学习如何整合 Visualization 和文本数据来改进聊天机器人的交互。通过动手实验,您将运用最先进的模型和框架,使用 Flask 构建具有多模态功能的全功能网络应用程序。