Raw images, audio clips, and text are only valuable when transformed into formats that AI models can actually use. This intermediate course equips you with the hands-on skills to build multimodal data processing pipelines across three core data types — visual, audio, and language — and to evaluate the AI models trained on them.
通过 Coursera Plus 提高技能,仅需 239 美元/年(原价 399 美元)。立即节省

Preparing Multimodal Data: Vision, Audio, and NLP Pipelines
包含在 中
您将学到什么
Preprocess images and video using normalization, color-space conversion, and motion extraction techniques.
Build audio feature extraction and augmentation pipelines using MFCCs and spectral transforms.
Fine-tune transformer models and construct text preprocessing pipelines for NLP applications.
Evaluate and debug multimodal AI models using automatic metrics and human-in-the-loop frameworks.
您将获得的技能
- Machine Learning Algorithms
- Machine Learning Methods
- Computer Vision
- Data Architecture
- Artificial Neural Networks
- Feature Engineering
- Artificial Intelligence and Machine Learning (AI/ML)
- Data Preprocessing
- Model Evaluation
- Digital Signal Processing
- Natural Language Processing
- Data Transformation
- Image Analysis
- Machine Learning Software
- Transfer Learning
- Data Pipelines
您将学习的工具
要了解的详细信息
了解顶级公司的员工如何掌握热门技能

积累 Software Development 领域的专业知识
本课程是 Multimodal Intelligence - Vision, Audio & Language in Action 专业证书 专项课程的一部分
在注册此课程时,您还会同时注册此专业证书。
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 通过 Coursera 获得可共享的职业证书

该课程共有13个模块
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
位教师

366 门课程51,989 名学生
提供方
从 Software Development 浏览更多内容
状态:免费试用
状态:免费试用Coursera
状态:免费试用
状态:免费试用
人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.
自 2018开始学习的学生
''能够按照自己的速度和节奏学习课程是一次很棒的经历。只要符合自己的时间表和心情,我就可以学习。'

Jennifer J.
自 2020开始学习的学生
''我直接将从课程中学到的概念和技能应用到一个令人兴奋的新工作项目中。'

Larry W.
自 2021开始学习的学生
''如果我的大学不提供我需要的主题课程,Coursera 便是最好的去处之一。'

Chaitanya A.
''学习不仅仅是在工作中做的更好:它远不止于此。Coursera 让我无限制地学习。'
¹ 本课程的部分作业采用 AI 评分。对于这些作业,将根据 Coursera 隐私声明使用您的数据。




