当前位置:4008云顶集团 > 电子商务 > Image Caption任务综述以及典型模型云顶集团登录

Image Caption任务综述以及典型模型云顶集团登录

文章作者:电子商务 上传时间:2019-12-28

机器之心发布机器之心编辑部人工智能顶级会议 AAAI 2020 将于 2 月 7 日-2 月 12 日在美国纽约举办,不久之前,AAAI 2020 公布论文介绍结果:今年最终收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇,接收率 20.6%。本文对北京理工大学、阿里文娱摩酷实验室合作的论文《Joint Commonsense and Relation Reasoning for Image and Video Captioning》进行解读。论文链接:) 常识推理,将视觉区域根据常识推理,嵌入到语义空间中从而构成语义图;(2) 关系推理,将语义图通过图神经网络编码,生成图像视频文字描述。一、研究动机图像视频的文字描述本质上是视觉到语言 (Vision-to-Language,即 V2L) 的问题。作为视觉理解 (Visual Understanding) 的一个研究方向,连接着视觉与语言,模型需要在理解图像视频的基础上给出描述视觉内容的自然语言语句。该任务在人机交互或者素材检索中有着重要的应用前景。比如在图 1(a) 中,老师要求幼儿园或者低年级的小朋友们看图说故事,具备图像视频的文字描述技术的机器可以辅助教学,与小朋友形成互动。在图 1(b) 中,一个视频网站的编辑运营人员试图搜索「易烊千玺跳舞」或者「在海边散步的恋人」的视频片段。图 1(a) 图 1(b)推理视觉关系有助于提高图像视频文字描述模型的性能。现有方法 [1-3] 通常使用预训练的物体或关系检测器来提取场景图,再推理图中各物体之间的关系。该类模型依赖鲁棒的物体或关系检测器,遇到遮挡、小物体等情况会导致检测结果不准确,进而影响文字描述的生成。在现实生活中,人们可以通过常识(先验知识)来联想推理一些不易识别或不可见的事物。如图 2 所示,人们通常会用「Several people waiting at a race holding umbrellas(一些打着雨伞的人在等一场比赛)」来描述图中内容,但实际上并不能从图像中直接观测到「race(比赛)」这个语义。然而可以通过观测到的「人群围在马路两旁」来推断出这是一场比赛。而这个推断的依据就是「人群围观」和「比赛」之间的关联常识。受此启发,本文作者提出利用常识引导推断图像视频中的语义关系,进而生成文字语句的描述方法。该方法联合关系与常识推理,不依赖任何物体或关系检测器,并且在训练时也不需要场景图的标注,这样的好处是:(1) 通过额外知识的引导,探索获得难以从视觉信息中学到的物体或关系;(2) 通过端到端的学习,可以保持图像视频和文字描述的语义一致性。图 2 基于常识推理的图像视频文字描述生成示例图二、方法本文提出的联合推理方法,结合以下两种推理方式:(1) 常识推理,将图像视频区域根据常识推理,嵌入到语义空间中从而构成语义图;(2) 关系推理,将语义图通过图神经网络(graph convolutional network, GCN)编码,生成图像视频的文字描述。如图 3 所示,该方法包含三个模块:视觉映射与知识映射、常识推理、关系推理。在视觉映射与知识映射模块中,首先稠密采样图像或视频的局部区域,将这些区域根据表观特征聚类得到候选语义(即物体、属性和关系)。然后分别使用视觉映射与知识映射学习候选语义的视觉特征向量和知识向量。在常识推理模块中,根据知识图谱来挑选候选语义组成语义图。在关系推理模块中,使用图卷积网络和基于序列的语言模型将给定的语义图经过关系推理得到图像或视频的文字描述。图 3 联合常识和关系推理方法示意图2.1 视觉映射与知识映射视觉映射是提取图像或视频的局部特征。首先稠密采样每个图像(视频)的 2D 图像块(3D 视频块),然后使用预训练的 CNN 提取特征,最后将这些特征聚类,用聚类中心表示候选语义的视觉特征向量。知识映射是将图像(视频)的候选语义映射到知识空间上。首先,将每个图像(视频)的视觉特征通过多头注意力机制(multi-head attention mechanism)映射到语义概念空间(每个图像视频的真值语义是直接由其真值句子通过词类标注工具自动得到),得到语义概念;然后学习这些语义概念的知识嵌入(knowledge embedding);最后将知识嵌入向量作为基,语义概念的概率作为权重系数,加权相加后得到图像(视频)候选语义的知识向量。2.2 联合常识和关系推理给定图像(视频)候选语义的视觉特征向量和知识向量,迭代执行常识和关系推理训练视频(图像)文字描述模型,如图 4 所示。图 4 迭代执行常识和关系推理示意图具体地,常识推理包含语义映射(semantic mapping)和准则(criterion)模块,语义映射将图像视频的视觉特征和知识向量表达为语义特征,而常识推理的准则根据 [4] 设置为:其中 s^h,s^r 和 s^t 分别为头实体(物体语义),关系(关系语义)和尾实体(物体或属性语义)的语义特征,W 为权重矩阵,Re(·) 和 Im(·) 分别表示取实部和虚部。根据该准则来选取三元组构成图像(视频)的语义图。关系推理由 GCN LSTM 模块实现,使用 [5] 提出的 GCN 得到关系敏感(relation-aware)的三元组特征,将三元组的语义特征级联,输入到 top-down attention LSTM [6] 中得到文字描述。通过过端到端的方式联合训练本文模型,设置目标函数为,其中,为交叉熵损失,用于学习生成句子;,指导学习三元组的语义特征,由常识推理中的准则来度量。由于使用常识推理准则来构建语义图是一个「硬分配」任务,直接反向求导优化效果不佳。本文提出迭代推理算法,交替执行基于常识推理的语义图生成以及利用常识和关系推理的文字描述生成来优化模型,从而使模型的端到端训练更加稳定,如算法 1 所示。算法 1三、实验在 MSVD 视频数据集和 MSCOCO 图像数据集上进行了实验。结果如表 1 和表 2 所示。在 MSVD 数据集上的结果表明,即便与使用了检测器的方法比较,本文方法的性能也十分优越。在 MSCOCO 数据集上,由于检测器在 MSCOCO 目标检测集上预训练,所以检测结果比较准确。为了公平起见,本文加入了直接使用检测器提取局部图像块的实验,结果明显高于所有 state-of-the-art 方法。表 1 MSVD 数据集上各方法的对比结果表 2 MSCOCO 数据集上各方法的对比结果本文还在 MSVD 数据集上进行了消融实验,结果如表 3 所示。其中「Anderson et al. (2019)」是 baseline 方法,相当于本文方法去掉了常识和关系推理;「Ours w/o CR」方法直接使用预训练检测器,来代替常识推理生成语义图;「Ours w/o RR」方法是去掉了关系推理,即 GCN。实验结果表明了本方法各个模块的有效性,值得注意的是,「Ours w/o CR」方法的性能甚至低于「Anderson et al. (2019)」,可见在视频上使在图像域预训练的检测器得到的语义图直接进行关系推理会导致性能下降。表 3 MSVD 数据集上消融实验的结果本文还展示了 MSVD 数据集和 Youku-VC 视频中文描述数据集的定性实验结果,如图 5 所,其中「o-r-o」和「o-r-a」分别表示语义图中的「物体-关系-物体」和「物体-关系-属性」。由图可见,本文方法可以推断识别出一些不易检测(遮挡,小尺寸)的物体,如图 (b) 中的「makeup」,(d) 中的「woman」,和 (f) 中的「话筒」。图 5 MSVD 和 Youku-VC 数据集上的定性实验结果四、总结本文提出了一种联合常识和关系推理的方法用于图像视频的文字描述生成。该方法利用先验知识交替迭代执行常识推理和关系推理,生成语义图来学习物体之间的语义关系,从而准确描述图像视频的内容。在图像和视频数据集上的实验表明,该方法优于其他最新方法。参考文献[1]Li, X.; and Jiang, S. Know more say less: Image captioning based on scene graphs. IEEE TMM, 2019.[2]Yao, T.; Pan, Y.; Li, Y.; and Mei, T. Exploring visual relationship for image captioning. ECCV, 2018.[3]Yang, X.; Tang, K.; Zhang, H,; and Cai, J. Auto-encoding scene graphs for image captioning. CVPR, 2019.[4]Trouillon, T.; Welbl, J.; Riedel, S.; Gaussier, É.; and Bouchard, G. Complex embeddings for simple link prediction. In ICML, 2018.[5]Johnson, J.; Gupta, A.; and Fei-Fei, L. Image generation from scene graphs. CVPR, 2018.[6]Anderson, P.; He, X.; Buehler, C.; Teney, D.; Johnson, M.; Gould, S.; and Zhang, L. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2019.12 月 28 日下午,阿里文娱技术发展部将联合北理工、机器之心共同举办 AAAI2020 论文解读会。欢迎感兴趣的读者们点击阅读原文参与报名。✄------------------------------------------------加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com广告 & 商务合作:bd@jiqizhixin.com]article_adlist-->

    前一段时间参加了创新工场举办的AI Challenger全球挑战赛,赛道是Image Caption,但只能算是从别人那里接手吧,并没有从一开始就跟进。比赛只是停留在论文研究和代码研究的层面,比较遗憾。

1、前言

    但是在这期间阅读了一些论文,研究了两篇论文分别的代码实现思路。本篇博文引自北京邮电大学在读博士朱欣鑫的Image caption任务综述文章,对Image caption所解决的任务、以及现阶段经典有效的模型进行梳理。之后有时间会再自己整理一下两篇论文show and tell model和knowing when to look的具体实现以及图解。希望自己不会忘记并且有时间吧。

目前,image caption任务的主要方法中,存在CNN-RNN架构的方式,没有涉及高层次的语义概念。本文中,作者一方面调查为什么没有引入语义信息的CNN-RNN架构会获得这么好的效果,另一方面,在CNN-RNN中加入高层次的语义信息,能够显著提高效果。并说明,对于此类任务,加入一些能表示语义信息的类似机制,都能提高效果。本文的两个贡献是1、在CNN-RNN架构中,引入高级语义属性,提高性能;2、一个基于属性的完全可训练的神经网络,可以应用于多个V2L问题。本文只专注说明image caption的部分,VQA部分不说明。

引言

相关研究工作,目前image caption任务有两种大方法,一种是分离的方法,图片处理和语言处理是两个分离的结构,其中有多种处理方式(映射方法,检索方法,模板方法)。另一种是最近比较火的端到端(end-to-end)方式,通过一些中间结构,将两者联系起来,常用探测器,attention等等。

Image Caption是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。

2、模型

随着机器翻译和大数据的兴起,出现了Image Caption的研究浪潮。当前大多数的Image Caption方法基于encoder-decoder模型。其中encoder一般为卷积神经网络,利用最后全连接层或者卷积层的特征作作为图像的特征,decoder一般为递归神经网络,主要用于图像描述的生成。由于普通RNN存在梯度下降的问题,RNN只能记忆之前有限的时间单元的内容,而LSTM是一种特殊的RNN架构,能够解决梯度消失等问题,并且其具有长期记忆,所以一般在decoder阶段采用LSTM.

本文提出了一个通用于V2L任务的模型,如下所示:

问题描述

云顶集团登录 1

Image Caption问题可以定义为二元组(I,S)的形式, 其中I表示图,S为目标单词序列,其中S={S1,S2,…},其中St为来自于数据集提取的单词。训练的目标是使最大似然p(S|I)取得最大值,即使生成的语句和目标语句更加匹配,也可以表达为用尽可能准确的用语句去描述图像。

模型主要分为两块,一块为属性预测生成模块,通用于所有任务(包括caption,简单VQA,复杂VQA),主要作用为多目标识别,产生一系列物体属性,将每幅图片表示成一个固定长度的向量,每个维度的数值表示此属性的概率。另一块儿为句子生成模块,基于LSTM结构的生成器,输入为前一个模块的输出。

数据集

属性字典:本文的属性字典来自训练样本中caption,可以是名词,动词,形容词等等,确保图像中能表达的属性都被提取出来了,并且属性粒度适中,比如,ride和riding是一样的,最终获得256个属性;

论文中常用数据集为Flickr8k,Flick30k,MSCOCO,其中各个数据集的图片数量如下表所示。

图片向量的生成过程,如下图所示:

云顶集团登录 2

云顶集团登录 3

云顶集团登录 4

首先,单标签CNN利用VGG在ImageNet上训练好,获得相关的模型参数,然后,将模型用在多标签训练集上(图片属性训练集),微调相关参数,最后将进行划分区域的图片集放入网路中,获得最终的图片向量表示。

数据集图片和描述示例如图

句子生成部分:

其中每张图像都至少有5张参考描述。为了使每张图像具有多种互相独立的描述,数据集使用了不同的语法去描述同一张图像。如示例图所示,相同图像的不同描述侧重场景的不同方面或者使用不同的语法构成。

我们通过最大化训练图片的正确描述的概率来训练一个语言生成模型,此处,我们利用CNN产生的语义属性概率向量,来预测句子描述,s1,,,st为最后的描述,通过上下文,和CNN的输出,计算最大对数似然函数,如下所示:

模型

云顶集团登录 5

本文主要介绍基于神经网络的方法

 

1 NIC[1]

其可以利用LSTM来实现,具体的流程如下:

Show and Tell: A Neural Image Caption Generator

云顶集团登录 6

本文提出了一种encoder-decoder框架,其中通过CNN提取图像特征,然后经过LSTM生成目标语言,其目标函数为最大化目标描述的最大似然估计。

而我们的目标是,如下函数:

云顶集团登录 7

云顶集团登录 8

该模型主要包括encoder-decoder两个部分。encoder部分为一个用于提取图像特征的卷积神经网络,可以采用VGG16,VGG19, GoogleNet等模型, decoder为经典的LSTM递归神经网络,其中第一步的输入为经过卷积神经网络提取的图像特征,其后时刻输入为每个单词的词向量表达。对于每个单词首先通过one-hot向量进行表示,然后经过词嵌入模型,变成与图像特征相同的维度。

N是训练样例,L是每个样例的caption长度,p是LSTM最后softmax层输出的概率,θ是LSTM的参数,并进行了正则处理。

2 MS Captivator[2]

3、实验

From captions to visual concepts and back

数据集,采用MS COCO,Flickr8k和Flickr30k,评价标准,依然采用常用的BLUE,PPL,METEOR,CIDEr,整个实验结果如下所示:

本文首先利用多实例学习,去训练视觉检测器来提取一副图像中所包含的单词,然后学习一个统计模型用于生成描述。对于视觉检测器部分,由于数据集对图像并没有准确的边框标注,并且一些形容词、动词也不能通过图像直接表达,所以本文采用Multiple Instance Learning(MIL)的弱监督方法,用于训练检测器。

云顶集团登录 9

云顶集团登录 10

云顶集团登录 11

3 Hard-Attention Soft-Attention[3]

4、总结

Show, atten and tell: Neural image caption generation with visual attention

通过以上分析和实验结果,可知加入语义属性到CNN-RNN架构中,可以在很多优秀的评价系统中获得比目前state-of-the-art的方法优秀的结果,这就说明,对于最终输出结果为句子的任务中,加入语言模型或者说考虑语义信息,是对结果有很好帮助的。本文除了在image caption中验证了这一点,同时在VQA中,也得到相应的结果,因此,语义信息对V2L任务卓有成效。

受最近注意机制在机器翻译中发展的启发,作者提出了在图像的卷积特征中结合空间注意机制的方法,然后将上下文信息输入到encoder-decoder框架中。在encoder阶段,与之前直接通过全连接层提取特征不同,作者使用较低层的卷积层作为图像特征,其中卷积层保留了图像空间信息,然后结合注意机制,能够动态的选择图像的空间特征用于decoder阶段。在decoder阶段,输入增加了图像上下文向量,该向量是当前时刻图像的显著区域的特征表达。

云顶集团登录 12

4 gLSTM[4]

Guiding long-short term memory for image caption generation

使用语义信息来指导LSTM在各个时刻生成描述。由于经典的NIC[1]模型,只是在LSTM模型开始时候输入图像,但是LSTM随着时间的增长,会慢慢缺少图像特征的指导,所以本文采取了三种不同的语义信息,用于指导每个时刻单词的生成,其中guidance分别为Retrieval-based guidance (ret-gLSTM), Semantic embedding guidance(emb-gLSTM) ,Image as guidance (img-gLSTM).

云顶集团登录 13

5 sentence-condition[5]

Image Caption Generation with Text-Conditional Semantic Attention

云顶集团登录 14

该模型首先利用卷积神经网络提取图像特征,然后结合图像特征和词嵌入的文本特征作为gLSTM的输入。由于之前gLSTM的guidance都采用了时间不变的信息,忽略了不同时刻guidance信息的不同,而作者采用了text-conditional的方法,并且和图像特征相结合,最终能够根据图像的特定部分用于当前单词的生成。

6 Att-CNN LSTM [6]

What value do explicit high level concepts have in vision to language problems?

如图,作者首先利用VggNet模型在ImageNet数据库进行预训练,然后进行多标签数训练。给一张图片,首先产生多个候选区域,将多个候选区域输入CNN产生多标签预测结果,然后将结果经过max pooling作为图像的高层语义信息,最后输入到LSTM用于描述的生成。该方法相当于保留了图像的高层语义信息,不仅在Image Caption上取得了不错的结果,在VQA问题上,也取得很好的成绩。

云顶集团登录 15

7 MSM[7]

BOOSTING IMAGE CAPTIONING WITH ATTRIBUTES

云顶集团登录 16

该文研究了图像属性特征对于描述结果的影响,其中图像属性特征通过多实例学习[2]的方法进行提取。作者采用了五种不同的组合形式进行对比。其中第3种、第5种,在五种中的表现出了比较好的效果。由于提取属性的模型,之前用于描述图像的单词的生成,所以属性特征能够更加抓住图像的重要特征。而该文中的第3种形式,相当于在NIC模型的基础上,在之前加上了属性作为LSTM的初始输入,增强了模型对于图像属性的理解。第5种,在每个时间节点将属性和文本信息进行结合作为输入,使每一步单词的生成都能够利用图像属性的信息。

8 When to Look[8]

Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

云顶集团登录 17

该文主要提出了何时利用何种特征的概念。由于有些描述单词可能并不直接和图像相关,而是可以从当前生成的描述中推测出来,所以当前单词的生成可能依赖图像,也可能依赖于语言模型。基于以上思想,作者提出了“视觉哨兵”的概念,能够以自适应的方法决定当前生成单词,是利用图像特征还是文本特征。

结果

本文列出的模型的在COCO测试集上的结果如下:

云顶集团登录 18

以下为online MSCOCO testing server的结果:

云顶集团登录 19

总结

最近的Image Caption的方法,大多基于encoder-decoder框架,而且随着flickr30,mscoco等大型数据集的出现,为基于深度学习的方法提供了数据的支撑,并且为论文实验结果的比较提供了统一的标准。模型利用之前在机器翻译等任务中流行的Attention方法,来加强对图像有效区域的利用,使在decoder阶段,能够更有效地利用图像特定区域的特征[3]。模型利用图像的语义信息在decoder阶段指导单词序列的生成,避免了之前只在decoder开始阶段利用图像信息,从而导致了图像信息随着时间的增长逐渐丢失的问题[4][5]。模型为了更好的得到图像的高层语义信息,对原有的卷积神经网络进行改进,包括利用多分类和多实例学习的方法,更好的提取图像的高层语义信息,加强encoder阶段图像特征的提取[6][7]。随着增强学习,GAN等模型已经在文本生成等任务中取得了不错的效果,相信也能为Image Caption效果带来提升。

参考文献

  1. Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator[J]. Computer Science, 2015:3156-3164.

2.Fang H, Gupta S, Iandola F, et al. From captions to visual concepts and back[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2015:1473-1482.

3.Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[J]. Computer Science, 2016:2048-2057.

4.Jia X, Gavves E, Fernando B, et al. Guiding Long-Short Term Memory for Image Caption Generation[J]. 2015.

5.Zhou L, Xu C, Koch P, et al. Image Caption Generation with Text-Conditional Semantic Attention[J]. 2016.

6.Wu Q, Shen C, Liu L, et al. What Value Do Explicit High Level Concepts Have in Vision to Language Problems?[J]. Computer Science, 2016.

7.Yao T, Pan Y, Li Y, et al. Boosting Image Captioning with Attributes[J]. 2016.

8.Lu J, Xiong C, Parikh D, et al. Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning[J]. 2016.

作者

朱欣鑫,北京邮电大学在读博士,研究方向为视觉语义理解

邮箱:zhuxinxin@bupt.edu.cn

本文由4008云顶集团发布于电子商务,转载请注明出处:Image Caption任务综述以及典型模型云顶集团登录

关键词: 4008云顶集团 云顶集团登录