最近阅读的几篇论文

最近阅读的几篇论文
目录

Saliency-Guided Attention Network for Image-Sentence Matching. CVPR 2019

内容

Saliency-Guided Attention Network for Image-Sentence Matching. CVPR 2019

1.1 目标
- 解决图片文本匹配的问题，其中图片信息和语言信息之间的语义差别是解决问题的重点。
1.2 解决策略
- 1.2.1 Saliency-guided Attention Network (SAN)
  
  主要是通过引入一种称为Saliency-guided Attention Network (SAN)，包括三个部分，分别是saliency detector, Saliency-weighted Visual Attention (SVA) 组件, 和 Saliency-guided Textual Attention (STA) 组件。
- 1.2.2 网络结构
- 1.2.3 数据表示
  - 1.2.3.1 图像特征表示
    
    在使用网络处理之前主要是通过全局平均的方式
    
    v表示第i个图像区域，P为全连接层
  - 1.2.3.2 文本特征表示
    
    主要是采用两个惯用的GRU网络对文本进行处理，以映射到与图像同一个表示空间中。
    
    在处理之前首先将句子分割成单词，将每个单词通过嵌入矩阵映射到流形空间中，然后放入GRU中，
    
    其中e为通过嵌入矩阵得到的嵌入，h表示GRU的隐藏状态，最后用全局的方式得到全局信息。
  - 1.2.3.3 Saliency-weighted Visual Attention(SVA)
    
    主要结构如下
    
    这里采取了ResNext网络经过上采样取得（这里只使用上三层），然后对他们分成两组拼接并提取，具体地，
    
    经过前两次拼接处理后，使用倒数第二个公式得到残差，将高层表示经过gc层，最后使用残差连接得到S1，从图中可以看到S1的具体效果
  - 1.2.2.4 Saliency-weighted Visual Attention Module
    
    主要是采用了注意力机制，通过S1,S2经过处理后获得注意力和大小匹配的特征图
    
    而后，
    
    a为注意力向量，P为全连接层。
  - 1.2.2.5 Saliency-guided Textual Attention (STA)
    
    该层策略比较简单，仅仅是通过两个全连接层而后将和式通过激活函数，而后经过一系列步骤得到STA vector，具体地，
    
    可以看到在得到m后，将其与之前的t进行融合后过softmax层，最后使用与之前类似的操作。得到经过注意力机制处理的向量。
  - 1.2.2.6 loss函数
    
    这里使用了比较常用的loss函数，定义为
1.3 结果
- 结果如下，可以发现匹配结果比较优越

本文链接：https://www.cnblogs.com/sand65535/p/14059847.html

最近阅读的几篇论文

最近阅读的几篇论文的更多相关文章

随机推荐

热门专题

目录导航