Multimodal models like Gemini are pushing the boundaries of what’s possible by unifying traditionally siloed data modalities. With Gemini, you can build applications that seamlessly understand and reason across text, images, and videos, enabling a new class of intelligent systems. For example, building a virtual interior designer that can analyze a user’s room images, understand their style preferences from a text description, and generate personalized design recommendations. Or creating a smart document processing pipeline that can extract structured data from complex PDFs, answer questions based on the content, and generate human-like summaries.


您将学到什么
Learn state-of-the-art techniques for getting the most out of multimodal AI with Google’s Gemini model family.
Leverage the power of Gemini’s cross-modal attention to fuse information from text, images, and video for complex reasoning tasks.
Extend Gemini’s capabilities with external knowledge and live data via function calling and API integration.
您将练习的技能
要了解的详细信息
授课语言:英语(English)
最近已更新!
July 2025
无需下载或安装
仅桌面可用
了解顶级公司的员工如何掌握热门技能

在不到 2 个小时的时间内学习、练习和应用为就业做好准备的技能
- 接受行业专家的培训
- 获得解决实训工作任务的实践经验

关于此项目
位教师

学习方式
基于实践项目的学习
按照分步说明完成与工作相关的任务来练习新技能。
无需下载或安装
在云环境中访问您所需的工具和资源。
仅在台式计算机上可用
此项目专为具有可靠互联网连接的笔记本电脑或台式计算机而设计,而不是移动设备。
人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.
自 2018开始学习的学生
''能够按照自己的速度和节奏学习课程是一次很棒的经历。只要符合自己的时间表和心情,我就可以学习。'

Jennifer J.
自 2020开始学习的学生
''我直接将从课程中学到的概念和技能应用到一个令人兴奋的新工作项目中。'

Larry W.
自 2021开始学习的学生
''如果我的大学不提供我需要的主题课程,Coursera 便是最好的去处之一。'

Chaitanya A.
''学习不仅仅是在工作中做的更好:它远不止于此。Coursera 让我无限制地学习。'
您可能还喜欢
- 状态:免费
DeepLearning.AI
- 状态:免费
Google Cloud
- 状态:免费试用
Vanderbilt University
- 状态:免费
DeepLearning.AI
常见问题
在课程中,您将在交互式实践环境中按照一系列说明完成活动或场景。课程在真实云环境和各种产品的真实实例中完成,而不是在模拟或演示环境中完成。
购买课程后,您将获得完成该课程所需的一切信息,包括完成该课程所需的任意产品的临时访问权限。
虽然从技术上讲,您可以通过移动设备访问此课程,但我们强烈建议您仅在笔记本电脑或台式机上完成课程。