最近阅读的几篇论文
目录

  1. Saliency-Guided Attention Network for Image-Sentence Matching. CVPR 2019

内容

  1. Saliency-Guided Attention Network for Image-Sentence Matching. CVPR 2019

    1.1 目标

    • 解决图片文本匹配的问题,其中图片信息和语言信息之间的语义差别是解决问题的重点。

    1.2 解决策略

    • 1.2.1 Saliency-guided Attention Network (SAN)

      主要是通过引入一种称为Saliency-guided Attention Network (SAN),包括三个部分,分别是saliency detector, Saliency-weighted Visual Attention (SVA) 组件, 和 Saliency-guided Textual Attention (STA) 组件。

    • 1.2.2 网络结构

    • 1.2.3 数据表示

      • 1.2.3.1 图像特征表示

        在使用网络处理之前主要是通过全局平均的方式

        v表示第i个图像区域,P为全连接层

      • 1.2.3.2 文本特征表示

        主要是采用两个惯用的GRU网络对文本进行处理,以映射到与图像同一个表示空间中。

        在处理之前首先将句子分割成单词,将每个单词通过嵌入矩阵映射到流形空间中,然后放入GRU中,

        其中e为通过嵌入矩阵得到的嵌入,h表示GRU的隐藏状态,最后用全局的方式得到全局信息。

      • 1.2.3.3 Saliency-weighted Visual Attention(SVA)

        主要结构如下

        这里采取了ResNext网络经过上采样取得(这里只使用上三层),然后对他们分成两组拼接并提取,具体地,

        经过前两次拼接处理后,使用倒数第二个公式得到残差,将高层表示经过gc层,最后使用残差连接得到S1,从图中可以看到S1的具体效果

      • 1.2.2.4 Saliency-weighted Visual Attention Module

        主要是采用了注意力机制,通过S1,S2经过处理后获得注意力和大小匹配的特征图

        而后,

        a为注意力向量,P为全连接层。

      • 1.2.2.5 Saliency-guided Textual Attention (STA)

        该层策略比较简单 ,仅仅是通过两个全连接层而后将和式通过激活函数,而后经过一系列步骤得到STA vector,具体地,

        可以看到在得到m后,将其与之前的t进行融合后过softmax层,最后使用与之前类似的操作。得到经过注意力机制处理的向量。

      • 1.2.2.6 loss函数

        这里使用了比较常用的loss函数,定义为

    1.3 结果

    • 结果如下,可以发现匹配结果比较优越

版权声明:本文为sand65535原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/sand65535/p/14059847.html