随着深度学习的进步、计算存储的扩大和视觉数据集的激增，计算机视觉的研究在过去几年里蓬勃发展。计算机视觉广泛应用于许多领域，如自动驾驶汽车、医疗、零售、能源、语言学等。

在这篇文章中，我将介绍2018年主导计算机视觉研究的5大趋势。详细复习太难了，这里只分享一下我在这方面令人印象深刻的成就。

1—合成数据

合成，即人工合成的用于训练深度学习模型的数据，绝对是2018年计算机视觉研究领域的重头戏。例如，这个SUNCG数据集用于模拟室内环境，这个Cityscapes数据集用于驾驶和导航，这个合成人类的超现实数据集用于学习姿态估计和跟踪。我们来过一遍2018年使用合成数据的最佳结果:

在 How Well Should You Label （你该标记得多好）中，作者着眼于为了从现代 CNN 架构中得到良好的分割质量，对训练标签的质量要求有多低。这很重要，因为合成数据通常以其像素完美的质量而闻名。作者在 Auto City 数据集上进行实验，证明最终的分割质量确实与标记所花费的时间量密切相关，但与每个标签的质量无关。Soccer on Your Tabletop （桌面上的博彩）提出了一个可以拍摄博彩比赛的视频流并将其转换为移动 3D 重建的系统，该重建可被投影到桌面上并使用增强现实设备进行观看。系统提取运动员的边界框，使用姿势和深度估计模型分析人物图形，最终得到非常精确的3D场景重建。

现有的大多特征学习方法都缺乏人类那样同时从不同信息源学习的能力。Cross-Do***in Self-supervised Multi-task Feature Learning（跨领域自监督多任务特征学习）使用合成图像通过提出一个原始的多任务深度学习网络来解决这个差距，该网络使用合成图像来更好地学习跨模态设置中的视觉表示。通过合成图像训练网络大大减少了多任务学习所需的往往昂贵且耗时的数据注释。为了弥合真实数据和合成数据之间的跨域差距，在无监督的特征级域适应方法中采用对抗性学习，增强了在视觉特征知识到现实世界任务的迁移方面的表现。

Training Deep Networks with Synthetic Data （用合成数据训练深度网络）提出了一种依赖合成数据的域随机化训练用于真实物体检测的深度神经网络数据的精确方法。域随机化通过刻意和随机地干扰环境的纹理来迫使网络聚焦并识别对象的主要特征，从而减少对高质量模拟数据集的需求。为了增强这一过程的性能，会进行结合合成数据和真实数据的额外训练，从而弥合现实差距、得到更好的性能。论文还提出了不同的方法来发挥合成数据的潜力，认为这一领域将在未来几年进一步发展。

2?—?视觉问答在《你应该标注得多好》中，作者重点讨论了为了从现代CNN架构中获得良好的分割质量，对训练标签的质量要求有多低。这很重要，因为合成数据通常以其像素的完美质量而闻名。作者在Auto City数据集上进行实验，证明了最终的分割质量确实与标注所花费的时间量密切相关，而与每个标签的质量无关。你桌面上的(Football on the Desktop)提出了一个系统，可以拍摄比赛的视频流，并将其转换为移动3D重建，可以投影到桌面上，用增强现实设备观看。该系统提取运动员的包围盒，利用姿态和深度估计模型分析图形，最终得到非常精确的三维场景重建。2—视觉问答

视觉问答(VQA)是计算机视觉和自然语言处理相结合的一个新问题。它通常包括向计算机展示一张图片，并要求计算机回答关于该图片的问题。答案可以是以下任何形式:单词、短语、是/否、多项选择答案或空问题的答案。

各种数据集，如DAQUAR、Visual7W、COCO-QA、VQA等，都致力于解决这一任务。我们也来看看今年视觉问答领域的佼佼者:

Embo***d QA 以创建完全智能代理为目标，这些代理可以主动感知，在基于环境的对话中自然交流、表现和执行命令。通过目标驱动的 3D 设置智能导航，代理被要求基于对象识别和视觉定位和理解来回答问题。有趣的是，该代理仅使用自我中心视觉来导航其周围环境。这意味着代理没有提供地图，只能通过原始感官输入（像素和单词）进行训练，并且必须依靠常识来导航不熟悉的环境。

标准的 VAQ 模型不如人类自然互动那样采样高效、简要，而是被动地依赖于大型静态数据集。Learning by asking questions 通过引入模仿自然学习的更具互动性的 VQA 模型填补了这一研究空白。在这篇文章中，通过评估其先前获得的知识并询问相关的好问题来最大化来自发送到 oracle 的每个图像-问题对学习信号，训练代理像人一样学习。该论文还展示了交互式提问如何显著减少冗余和训练所需样本，以实现准确率提高40％。

Inverse Visual QA (iVQA) 连接了其他旨在通过专注于开发视觉定位来提高标准 VQA 模型性能的模型。本文颠倒了流行的 VQA 任务，目标是在给定图像/答案对的情况下生成问题。标准 VQA 的学习偏差破坏了评估过程。iVQA 使用部分生成的问题，对应于图像-答案对的偏差较小的学习先验，以实现更多的视觉定位。

Interactive QA 致力于解决标准 VAQ 模型的一个短板：通常是被动的，不能训练能够在其环境中导航、交互和执行任务的完全智能的代理。该模型使用具有语义空间记忆的多级控制器方法，收集模拟真实场景的丰富数据集和广泛的问题以评估模型。它推动标准 VQA 朝着创建完全视觉智能代理的最终目标迈进。

有效地评估当前最先进的 VQA 模型的性能并防止它们依赖有偏差的训练先验是一个仍在开发中的领域。为了这一目标，Grounded Visual QA 模型提供了一种新方法，可以直接分离从合理的先***中识别出的对象，从而迫使模型更多地去视觉定位。从该报告的优异成果以及当前社区对这一研究领域的关注来看，未来用创新方法进一步推进 VQA 模型很有希望。

3?—?域适应标准的VAQ模型不像人类自然交互那样高效简单，而是被动地依赖于大型静态数据集。通过提出问题来学习填补了这项研究的空白空引入了一个更具互动性的模仿自然学习的VQA模型。在本文中，代理被训练像人类一样学习，评估他们以前获得的知识，并提出相关的好问题，以最大化发送到oracle的每个图像-问题对的学习信号。本文还展示了交互式提问如何显著减少冗余和训练样本，从而将准确率提高40%。3—域适应

2018年有一些具体的研究方向，一个是领域适配。这个领域实际上与合成数据密切相关。它解决了为监督学习收集标记数据集并确保数据足够可靠和多样化的巨大挑战。这个问题的本质是，我们如何使用一种数据，使网络可以处理不同的数据。

Unsupervised Do***in Adaptation with Similarity Learning（用相似度学习实现无监督域适应使用对抗性网络处理域适应。作者让一个网络从标记的源域和另一个网络中提取特征，以实现从一个未标记的目标域中提取具有相似但不同数据分布的特征。训练模型以将目标原型与所有其他原型区分开来的分类是不同的。为了标记来自目标域的图像，作者将图像的嵌入与来自源域的原型图像的嵌入进行比较，然后分配其最邻近标签。

I***ge to I***ge Translation for Do***in Adaptation （域适应的图像到图像转换研究用于图像分割的域适应，其广泛用于自动驾驶汽车，医学成像和许多其他领域。从根本上来说，这一域自适应技术必须找到从源数据分布到目标数据分布的映射结构。该方法使用3种主要技术：（i）do***in-agnostic feature extraction（从源域和目标域提取的特征的分布无法区分），（ii）do***in-specific reconstruction（嵌入可以被解码回源域和目标域），和（iii）cycle consistency（正确学习映射）。

Conditional GAN for Structured Do***in Adaptation （用于结构化域适应的条件 GAN 提供了一种新方法，通过结构化域自适应方法克服语义分割模型中跨域差异的挑战。与无监督域自适应不同，该方法不假设存在跨域公共特征空间，而是采用条件生成器和鉴别器。因此，条件 GAN 被集成到 CNN 框架中，迁移标记的合成图像域到未标记的真实图像域。该方法的结果优于以前的模型，凸显了合成数据集在推进视觉任务方面不断增长的潜力。

训练基于深度学习的模型依赖大量带注释的数据集需要大量资源。尽管在许多视觉识别任务中实现了最先进的性能，但跨域差异仍然是一个巨大的挑战。为了跨域迁移知识， Maximum Classifier Discrepancy for Unsupervised Do***in Adaptation 使用新颖的对抗性学习方法进行域适应，而不需要来自目标域的任何标记信息。据观察，这种方法最小化来自目标域的样本的两个分类器的概率估计之间的差异，可以产生用于从分类到语义分割的各种任务的类判别特征。

4?—?生成对抗网络到用于域适应的图像平移(Doin-adapted ige-to-i*ge conversion research)用于图像分割的域适应广泛应用于自动驾驶汽车、医学成像等许多领域。从根本上说，这种领域自适应技术必须找到从源数据分布到目标数据分布的映射结构。该方法使用了三种主要技术:(I)领域不可知的特征提取(无法区分从源领域和目标领域提取的特征的分布)，(ii)领域特定的重构(嵌入可以解码回源领域和目标领域)，以及(iii)循环一致性(正确的学习映射)。4—生成对抗网络**

2018年计算机视觉最成功的一代模型–代网(GAN)无疑是重要的一年。下面就让我们一起来欣赏一些今年的佳作，来完善甘模型:

条件 GANs 已经广泛用于图像建模，但它们对于风格迁移也非常有用。尤其是它们可以学习与特定图像元素相对应的显著特征，然后改变它们。在PairedCycleGAN for Makeup中，作者们提出了一个图片妆容修整的框架。他们为不同的面部组件训练各自的生成器并单独应用它们，用不同的网络提取面部要素。

Eye I***ge Synthesis with Generative Models（生成模型的眼睛图像合成）着眼于生成人眼图像的问题。这是一个有趣的用例，因为我们可以使用生成的眼睛来解决视线估计问题——一个人在看什么？作者使用眼形合成的概率模型和 GAN 架构来生成遵循该模型的眼睛。

Generative I***ge In-painting with Contextual Attention（基于内容感知生成模型的图像修复）探讨了填补图像空白这一挑战性问题。通常，要修复图像，我们需要了解基础场景。而这种方法使用 GAN 模型，使用周围图像中的特征来显著改善生成。

当前最先进的基于 GAN 的文本到图像生成模型仅在句子级别编码文本描述，并忽略能够改善生成图像质量的单词级别的细粒度信息。AttnGAN 提出了一种新颖的词级注意力机制，在制作复杂场景时效果更赞。

和普遍的看法不同的是，神经网络的成功主要来自于他们从数据中学习的强大能力，Deep I***ge Prior（深度图像先验）展示了网络结构对于建立良好的图像先验的重要性。本文提出了一种作为成像任务先验的解码网络。有趣的是，作者展示了在任何学习之前，生成器网络就足以捕获大量的低级图像统计数据。作者还使用该方法通过产生所谓的自然预图像（natural pre-i***ges）来研究保留在网络的不同级别的信息内容。同样有意思的是，使用深度图像先验作为正则项，从非常深的层级获得的预图像中仍然能获取大量信息。

尽管 GANs 很成功，但其鉴别器网络作为普通监督任务（如语义分割）的通用损失函数并不算很成功。Matching Adversarial Networks（匹配对抗网络）强调了背后的原因，即损失函数不直接依赖生成器训练期间的真实值(ground truth)标记，这导致从数据分布中随机产生样本而不以监督方式关联输入-输出关系。为了克服这个问题，本文提出用匹配网络替换鉴别器，同时考虑真实值输出以及生成的示例——由孪生网络架构促成。

5?—?3D 对象理解使用生成模型的眼睛合成集中于生成人眼图像的问题。这是一个有趣的用例，因为我们可以使用生成的眼睛来解决视线估计的问题——一个人在看什么？作者的眼睛形状合成的概率模型和GAN架构用于生成遵循该模型的眼睛。5—3D对象理解

3D对象理解对于深度学习系统成功解释和指导现实世界至关重要。例如，网络可能能够在街道图像中定位汽车，对其所有像素进行着色，并将其归类为汽车。但问题是它是否真的能理解图像中的车相对于街上其他物体的位置。

三维物体理解涉及广泛的研究领域，包括物体检测、物体跟踪、姿态估计、深度估计、场景重建等。我们来看看2018年该领域的主要论文:

Detect-and-Track 是 2017 年出现的最有前途的图像分割方法之一 Mask R-CNN 的延伸。作者提出了一种 3D Mask R-CNN 架构，它使用时空卷积来提取特征并直接识别短片中的姿势。完整的架构如下所示。它在姿势估计和人体定位方面实现了当前最优结果。

Pose-Sensitive Embeddings for Person Re-Identification 应对了行人重识别（person re-identification）的挑战。通常，这个问题通过基于检索的方法来解决，即求导查询图像与来自某个嵌入空间的存储图像之间的相似度度量。这篇论文提出将姿势信息直接嵌入到 CNN 中,并设计了一个无监督的重排序新方法。架构如下图所示。

3D Poses from a Single I***ge（基于单色图像的 3D 姿势）提出了一种姿势估计的特别方法。它直接通过一种结合了姿势估计、人体轮廓分割和网格生成的端到端卷积结构生成人体的 3D 网格，关键点在于它使用了 SMPL，一种统计学身体形状模型，为人体的形状提供了良好的先验。因此，它得以从一张单色图像构造人体的 3D 网格。

Flow Track （光流相关滤波）则致力于对象定位问题。它是相关滤波类方法（DCF，discriminative correlation filter）的扩展，学习与对象相对应的滤波并将其应用于所有视频帧。其模型体系结构具有空间-时间注意力（spatial-temporal attention）机制，关注视频中的不同时间帧。（译者注：在 spatial attention 中，用余弦距离衡量，对空间位置上每一个待融合的点分配权重：和当前帧越相似，权重越大，反之越小；这么做的问题是当前帧的权重永远是最大的，于是作者借鉴 SENet 的思想设计了时间权重 temporal attention，即把每一帧看做一个channel，设计一个质量判断网络，网络输出的结果是每一帧的质量打分。temporal attention 和 spatial attention 结合，实现 feature ***p 的融合。）

与上述的 Flow Track 相同，Correlation Tracking 也是用相关滤波处理对象***。然而这种方法不使用深度神经网络，相反，它包含可靠性信息 – 这意味着作者在目标函数中添加了一项，用于模拟学习过滤器的可靠性。

希望你会喜欢这篇短评。如果你有兴趣探索更多，建议阅读CVPR，ICLR, 以及机器学习和人工智能领域最负盛名的会议——NeurIPS。用于个人再识别的姿态敏感嵌入满足了行人再识别的挑战。通常，这个问题通过基于检索的方法来解决，即，从嵌入式空中导出查询图像和存储图像之间的相似性度量。本文提出将姿态信息直接嵌入到CNN中，并设计了一种新的无监督重排序方法。该架构如下图所示。我希望你会喜欢这篇简短的评论。如果你有兴趣探索更多，建议阅读CVPR、ICLR和——NeurIPS，这是机器学习和人工智能领域最负盛名的会议。

本文来自果味果冻投稿，不代表舒华文档立场，如若转载，请注明出处：https://www.chinashuhua.cn/24/480121.html

计算机视觉技术的发展方向计算机视觉三大领域

联系我们

计算机视觉技术的发展方向 计算机视觉三大领域

相关推荐

通用视觉开源平台OpenGVLab发布 基于书生技术体系

什么是视觉营销(什么是视觉营销)

视觉中国图库怎么下载(中国版权市场的视觉中国们)

视觉测量技术及应用 浅析视觉测量技术有哪些

评论列表

联系我们

分享到：

计算机视觉技术的发展方向计算机视觉三大领域

通用视觉开源平台OpenGVLab发布基于书生技术体系

视觉测量技术及应用浅析视觉测量技术有哪些