视觉语言(VL)系统允许搜索相关图像(反之亦然)以进行文本查询,并使用自然语言来描述图像的内容。
一般来说,VL系统使用图像编码模块和视觉语言融合模块。
Microsoft Research最近开发了一种新的图像编码对象属性检测模型,称为VinVL(视觉语言中的视觉功能),其性能要比人类好得多。
当VinVL与OSCAR和vivo等VL融合模块结合使用时,Microsoft的新VL系统可以在最具竞争力的VL排名中位居第一,其中包括视觉问答(VQA),Microsoft COCO图像字幕和新颖的对象字幕(无大写字母))。
微软研究团队还强调,在nocaps排名中,CIDEr中这种新的VL系统的性能(92.5对85.3)显然超过了人类表现的相同形式。
微软解释说:VinVL在提高VL对图像编码的理解方面显示出巨大潜力。
如本文中的示例所示,我们新开发的图像编码模型可以使各种VL任务受益。
尽管我们已经获得了令人鼓舞的结果,例如在图像字幕基准上超过了人类的表现,但我们的模型绝不是VL所能理解的人类水平的智能。
未来有趣的工作方向包括:(1)使用大量的图像分类/标记数据来进一步扩大对象属性检测预训练的规模; (2)扩展了跨模式VL表示学习的方法,以建立基于感知的语言模型,例如人类也以自然语言建立视觉概念,反之亦然。
Microsoft VinVL已集成到Azure认知服务中。
Azure认知服务为各种Microsoft服务提供支持,例如SeeingAI,Office和LinkedIn中的图像字幕。
微软研究团队还将向公众发布VinVL模型和源代码。
负责编辑AJX