最近阅读的几篇论文
目录
- Saliency-Guided Attention Network for Image-Sentence Matching. CVPR 2019
内容
-
Saliency-Guided Attention Network for Image-Sentence Matching. CVPR 2019
1.1 目标
- 解决图片文本匹配的问题,其中图片信息和语言信息之间的语义差别是解决问题的重点。
1.2 解决策略
-
1.2.1 Saliency-guided Attention Network (SAN)
主要是通过引入一种称为Saliency-guided Attention Network (SAN),包括三个部分,分别是saliency detector, Saliency-weighted Visual Attention (SVA) 组件, 和 Saliency-guided Textual Attention (STA) 组件。
-
1.2.2 网络结构
-
1.2.3 数据表示
-
1.2.3.1 图像特征表示
在使用网络处理之前主要是通过全局平均的方式
v表示第i个图像区域,P为全连接层
-
1.2.3.2 文本特征表示
主要是采用两个惯用的GRU网络对文本进行处理,以映射到与图像同一个表示空间中。
在处理之前首先将句子分割成单词,将每个单词通过嵌入矩阵映射到流形空间中,然后放入GRU中,
其中e为通过嵌入矩阵得到的嵌入,h表示GRU的隐藏状态,最后用全局的方式得到全局信息。
-
1.2.3.3 Saliency-weighted Visual Attention(SVA)
主要结构如下
这里采取了ResNext网络经过上采样取得(这里只使用上三层),然后对他们分成两组拼接并提取,具体地,
经过前两次拼接处理后,使用倒数第二个公式得到残差,将高层表示经过gc层,最后使用残差连接得到S1,从图中可以看到S1的具体效果
-
1.2.2.4 Saliency-weighted Visual Attention Module
主要是采用了注意力机制,通过S1,S2经过处理后获得注意力和大小匹配的特征图
而后,
a为注意力向量,P为全连接层。
-
1.2.2.5 Saliency-guided Textual Attention (STA)
该层策略比较简单 ,仅仅是通过两个全连接层而后将和式通过激活函数,而后经过一系列步骤得到STA vector,具体地,
可以看到在得到m后,将其与之前的t进行融合后过softmax层,最后使用与之前类似的操作。得到经过注意力机制处理的向量。
-
1.2.2.6 loss函数
这里使用了比较常用的loss函数,定义为
-
1.3 结果
-
结果如下,可以发现匹配结果比较优越