作为计算机视觉(CV)研究中长期存在的视觉啥都挑战,视觉识别(如图像分类、语言预训移学目标检测和语义分割)是模型自动驾驶、遥感等众多计算机视觉应用的习和基石。深度学习的南洋出现使得视觉识别取得了巨大成功。然而,理工练迁现有的大学视觉识别研究大多依赖于昂贵的标注数据进行深度神经网络训练,并且通常需要为每个任务训练一个独立的最新综述知识蒸馏网络,这导致了耗时费力的视觉啥都识别模式。
为了应对这些挑战,语言预训移学大型视觉语言模型引起了广泛关注并得到深入研究。模型通过学习互联网上大量图像-文本对之间丰富的视觉语言对应关系,现在可以使用一个视觉语言模型(如 CLIP、ALIGN)进行各种视觉识别任务的零样本预测。
本综述中,来自新加坡南洋理工大学的几位研究者全面研究了针对视觉识别任务的大型视觉语言模型,总结了最近的发展。
首先,他们回顾了视觉识别的发展背景。接着介绍了视觉语言模型的基础知识,包括广泛采用的深度网络架构、预训练目标以及用于评估视觉语言模型的下游任务和常用数据集。在此基础上,对视觉语言模型的预训练方法进行了总结和分类。此外,还对基于视觉语言模型的迁移学习和知识蒸馏方法进行了系统分析。最后,对回顾的方法进行了基准测试、分析和讨论,并提出了多个研究挑战和未来视觉识别中可能的研究方向。本综述将持续关注针对视觉识别任务的最新视觉语言模型相关工作。
图片
1. 视觉语言模型(如 CLIP)的出现显著简化了视觉识别任务的训练模式,减少了对昂贵的精细标注数据的依赖。近年来,大量相关文章证明了研究者对视觉语言模型的浓厚兴趣。
2. 目前缺乏全面的综述来梳理基于视觉语言模型的视觉识别研究,以及面临的挑战和未来的研究方向。
因此,研究者认为有必要对视觉语言模型在各种视觉识别任务中的研究进行系统总结,以填补这一空白。
1. 系统性:本文从多个角度对基于视觉语言模型的视觉识别进行了系统总结,包括背景、基础、数据集、方法、基准测试和未来研究方向。
2. 全面性:本文全面总结了相关工作,包括视觉语言模型的预训练方法,以及视觉语言模型的迁移学习和知识蒸馏方法。
3. 详细分类:对于每个方法类别,本文进行了详细分类,总结类似方法的工作,并进行了对比分析。例如,对于视觉语言模型的预训练方法,本文将其分为基于对比学习、基于生成目标和基于对齐目标的三大类,并在每个类别下进一步细(图 1)。
图 1. 综述的分类总览。
图 2. 常用的视觉语言模型预训练数据集总结。
本文首先对视觉语言模型的预训练方法进行了总结和分类对比,分别为以对比学习为目的的方法、以生成任务为目的的方法和以对齐为目的的方法。
1. 基于对比学习的方法(Pre-Training with Contrastive Objectives)。对比目标通过在特征空间中将配对样本拉近并将其他样本推远来训练视觉语言模型学习具有识别力的特征。本章节根据对比学习的输入,进一步将方法细分为基于图像对比学习的方法,基于图像-文字对比学习的方法和基于图像-文字-标签对比学习的方法。
2. 基于生成任务的方法(Pre-training with Generative Objectives)。基于生成任务的方法通过训练网络进行图像生成、语言生成或跨模态生成来学习语义特征,进一步可细分为基于掩码图像建模的方法、基于掩码语言建模的方法、基于掩码跨模态建模的方法和基于图像到文本生成的方法。
3. 基于对齐目的的方法(VLM Pre-training with Alignment Objectives)。对齐任务目的是在将图像和文字的特征进行匹配,通常可以分为全局的图像-文字匹配和局部的图像区域-单词匹配。
除了直接将预训练的视觉语言模型应用于下游任务的零样本预测之外,视觉语言模型的迁移学习同样吸引了大量的注意。迁移学习的目的是使得预训练过的视觉语言模型可以更好地适应下游任务。
本文将视觉语言模型的迁移方法主要分为了三大类,分别为提示调整方法、特征适配器方法和其他方法。
1. 提示调整方法(Prompt Tuning)。受自然语言处理中「提示学习」的启发,提示学习方法也被探索并且用于视觉语言模型的迁移中,通过寻找最佳的 prompt,并且不需要微调全部视觉语言模型的参数来适应下游任务。目前的提示调整方法进一步可以被分为文本提示调整、视觉提示调整和文本-视觉提示调整三种方法。
2. 特征适配器方法(Feature Adapter)。特征适配通过额外的轻量级特征适配器对视觉语言模型进行微调,以适应下游任务的图像或文本特征。
3. 其他方法。除了提示调整方法和特征适配器方法,一些研究也通过其他方法对视觉语言模型进行迁移,比如进行对视觉语言模型直接进行微调、更改视觉语言模型的架构等。
视觉语言模型可以提取到视觉和文本概念的通用知识,因此一些研究探索了如何提炼通用视觉语言知识,来处理复杂的密集预测任务,例如目标检测和语义分割。
与视觉语言模型迁移方法不同,对视觉语言模型进行知识蒸馏的方法通常不受视觉语言模型架构的限制,并且大部分研究会利用当前最先进的检测或者分割架构的优势来达到更好的性能。
本文根据任务的不同,将知识蒸馏方法分为了针对于开放词汇目标检测(open-vocabulary object detection)的知识蒸馏以及针对于开放词汇语义分割(open-vocabulary semantic segmentation)的知识蒸馏。
本文分别对视觉语言模型的预训练方法、迁移方法和知识蒸馏方法在各自的评估任务上进行了比较,并且对结果进行了分析(图 3-5)。
图 3. 视觉语言模型预训练方法在图像分类任务中零样本预测的性能
最后,本文还分享了一些研究挑战和潜在的研究方向,可以在未来的视觉语言模型研究中进行探索。
对于视觉语言模型的预训练:
对于视觉语言模型的迁移:
对于视觉语言模型的知识蒸馏,可以从两个方面进行进一步探索。第一,可以同时对多个视觉语言模型进行知识蒸馏,通过协调多个视觉语言模型的知识蒸馏来获得更好的效果。第二,可以将知识蒸馏应用于其他视觉识别任务,例如实例分割、全景分割、行人重新识别等,以进一步扩展知识蒸馏的应用领域。
责任编辑:张燕妮 来源: 机器之心 模型视觉(责任编辑:焦点)
评价结果显示:零售业务对商业银行收益可持续能力的贡献不断增强
鹰君(00041.HK)授出499万份购股期权 惟须待承受人接纳方可作实
成果涌现 296个项目12人获科技大奖 创新型国家建设迎收获期
融资余额站稳万亿元后继续净流入300亿元 超过百亿元布局科技股