联系我们贴片高压电阻圆柱晶圆高压电阻插件金属膜高压电阻FAE

品质诚信服务

当前位置:首页 >> 产品和行业资讯 >> 微软的视觉语言模型已经大大超越了人类的表现

微软的视觉语言模型已经大大超越了人类的表现

视觉语言(VL)系统允许搜索相关图像(反之亦然)以进行文本查询,并使用自然语言来描述图像的内容。

一般来说,VL系统使用图像编码模块和视觉语言融合模块。

Microsoft Research最近开发了一种新的图像编码对象属性检测模型,称为VinVL(视觉语言中的视觉功能),其性能要比人类好得多。

当VinVL与OSCAR和vivo等VL融合模块结合使用时,Microsoft的新VL系统可以在最具竞争力的VL排名中位居第一,其中包括视觉问答(VQA),Microsoft COCO图像字幕和新颖的对象字幕(无大写字母))。

微软研究团队还强调,在nocaps排名中,CIDEr中这种新的VL系统的性能(92.5对85.3)显然超过了人类表现的相同形式。

微软解释说:VinVL在提高VL对图像编码的理解方面显示出巨大潜力。

如本文中的示例所示,我们新开发的图像编码模型可以使各种VL任务受益。

尽管我们已经获得了令人鼓舞的结果,例如在图像字幕基准上超过了人类的表现,但我们的模型绝不是VL所能理解的人类水平的智能。

未来有趣的工作方向包括:(1)使用大量的图像分类/标记数据来进一步扩大对象属性检测预训练的规模; (2)扩展了跨模式VL表示学习的方法,以建立基于感知的语言模型,例如人类也以自然语言建立视觉概念,反之亦然。

Microsoft VinVL已集成到Azure认知服务中。

Azure认知服务为各种Microsoft服务提供支持,例如SeeingAI,Office和LinkedIn中的图像字幕。

微软研究团队还将向公众发布VinVL模型和源代码。

负责编辑AJX

打开客服菜单