计算机视觉系统的最终目标是为每幅图像生成详细的符号描述。本课程的重点是至关重要的感知问题。
我们首先介绍在复杂场景中跟踪物体的问题。在此背景下,我们将研究两个关键挑战。首先是使用一种称为 "变化检测 "的技术将图像分为物体和背景。第二个挑战是跟踪视频中的一个或多个物体。接下来,我们将研究将图像分割成有意义区域的问题。特别是,我们采用自下而上的方法,将具有相似属性的像素组合在一起,从而得到一个区域。 最后,我们将讨论物体识别问题。我们介绍了解决这一问题的两种方法。第一种方法利用物体的外观直接识别物体及其姿态。这种方法基于降维概念,通过主成分分析来实现。第二种方法是使用神经网络来解决识别问题,即学习从输入(图像)到输出(物体类别、物体特征、活动等)的映射。我们将介绍如何构建神经网络以及如何使用反向传播算法对其进行训练。