微软的视觉语言模型已经大大超越了人类的表现

产品

视觉语言（VL）系统允许搜索相关图像（反之亦然）以进行文本查询，并使用自然语言来描述图像的内容。

一般来说，VL系统使用图像编码模块和视觉语言融合模块。

Microsoft Research最近开发了一种新的图像编码对象属性检测模型，称为VinVL（视觉语言中的视觉功能），其性能要比人类好得多。

当VinVL与OSCAR和vivo等VL融合模块结合使用时，Microsoft的新VL系统可以在最具竞争力的VL排名中位居第一，其中包括视觉问答（VQA），Microsoft COCO图像字幕和新颖的对象字幕（无大写字母））。

微软研究团队还强调，在nocaps排名中，CIDEr中这种新的VL系统的性能（92.5对85.3）显然超过了人类表现的相同形式。

微软解释说：VinVL在提高VL对图像编码的理解方面显示出巨大潜力。

如本文中的示例所示，我们新开发的图像编码模型可以使各种VL任务受益。

尽管我们已经获得了令人鼓舞的结果，例如在图像字幕基准上超过了人类的表现，但我们的模型绝不是VL所能理解的人类水平的智能。

未来有趣的工作方向包括：（1）使用大量的图像分类/标记数据来进一步扩大对象属性检测预训练的规模；（2）扩展了跨模式VL表示学习的方法，以建立基于感知的语言模型，例如人类也以自然语言建立视觉概念，反之亦然。

Microsoft VinVL已集成到Azure认知服务中。

Azure认知服务为各种Microsoft服务提供支持，例如SeeingAI，Office和LinkedIn中的图像字幕。

微软研究团队还将向公众发布VinVL模型和源代码。

负责编辑AJX