注意力(Attention)与Seq2Seq的区别

liuxiaochong 2021-02-13 原文

什么是注意力（Attention）？

　　注意力机制可看作模糊记忆的一种形式。记忆由模型的隐藏状态组成，模型选择从记忆中检索内容。深入了解注意力之前，先简要回顾Seq2Seq模型。传统的机器翻译主要基于Seq2Seq模型。该模型分为编码层和解码层，并由RNN或RNN变体（LSTM、GRU等）组成。编码矢量是从模型的编码部分产生的最终隐藏状态。该向量旨在封装所有输入元素的信息，以帮助解码器进行准确的预测。其用于充当模型解码器部分的初始隐藏状态。

　　Seq2Seq模型的主要瓶颈是需要将源序列的全部内容压缩为固定大小的矢量。如果文本稍长，则很容易丢失文本的某些信息。为解决这个问题，注意力应运而生。注意机制通过使解码器回顾源序列隐藏状态，然后将其加权平均值作为附加输入提供给解码器来缓解该问题。使用注意力，顾名思义，模型在解码阶段选择最适合当前节点的上下文作为输入内容。

注意力与传统的Seq2Seq模型有两个主要区别：

　　第一，编码器向解码器提供更多数据，并且编码器会向解码器提供所有节点的隐藏状态，而不仅仅是编码器的最后节点的隐藏状态。

　　第二，解码器不直接将所有编码器提供的隐藏状态作为输入，而是采用选择机制来选择与当前位置最匹配的隐藏状态。为此，它尝试通过计算每个隐藏状态的得分值并对得分进行softmax计算来确定哪个隐藏状态与当前节点相关性最高，这使得隐藏状态的更高相关性具有更大的分数值，不太相关的隐藏状态具有较小的分数值。然后它将每个隐藏状态与其softmax得分相乘，从而放大分数高的隐藏状态，淹没分数低的隐藏状态。该评分练习在解码器侧的每个迭代时间完成。

参考：

https://baijiahao.baidu.com/s?id=1646339383512667132&wfr=spider&for=pc

版权声明：本文为liuxiaochong原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/liuxiaochong/p/14359579.html

注意力(Attention)与Seq2Seq的区别的更多相关文章

百度API调用之文本纠错
毕设做的是文本纠错方面，然后今天进组见研究生导师。老师对我做的东西蛮感兴趣。然后介绍自己现在做的一些项目 […]...
词向量入门
词向量 one hot 编码在自然语言处理中，为了将自然语言转化为计算机所能识别的语言，就要对它重新编码，起 […]...
关于word2vec的一些问题
CBOW v.s. skip-gram CBOW 上下文预测中心词，出现次数少的词会被平滑，对出现频繁的词有更 […]...
NLP入门（三）词形还原（Lemmatization）
词形还原（Lemmatization）是文本预处理中的重要部分，与词干提取（stemming）很相似。 […]...
浅谈分词算法（1）分词中的基本问题
[TOC] 前言分词或说切词是自然语言处理中一个经典且基础的问题，在平时的工作中也反复的接触到分词问题，用到 […]...
GRU算法原理
一、GRU算法　　GRU（Gate Recurrent Unit，循环门单元）是循环神经网络（Recurre […]...
基于Bert的文本情感分类
详细代码已上传到github: click me Abstract: Sentiment classif […]...
基线系统需要受到更多关注：基于词向量的简单模型
基线系统需要受到更多关注：基于词向量的简单模型最近阅读了《Baseline Needs More Lov […]...

随机推荐

“三遍读书法”自学编程
“三遍读书法”自学编程本文译自一老外编程学习者的文章，其经验值得大家借鉴。我大学本科念的是电 […]...
js获取当前时间并格式化
js获取当前时间并格式化 <!DOCTYPE html> <html> <hea […]...
CentOS7.5模板机配置
CentOS7.5模板机配置标签（空格分隔）： linux学习知识整理Mr.Wei's notes!人一定要 […]...
自己挖的坑自己填–Mybatis mapper文件if标签中number类型及String类型的坑
Mybatis mapper文件if标签中number类型及String类型的坑　　1.现象描述　　（1） […]...
UART – youngvoice
UART 1. uart 最常用的三根线是 :数据发送线 Tx ,数据接收线 Rx ,GND 参考地线。注意 […]...
几种常见的Android自动化测试框架及其应用
随着Android应用得越来越广，越来越多的公司推出了自己移动应用测试平台。例如，百度的MTC、东软易测云、T […]...
实现垂直居中
原文　　简书原文：https://www.jianshu.com/p/ad29cc9e8aff 大纲　　前 […]...
JS学习笔记 | 遮罩层Loading实现
一、遮罩层样式示例参考样式：模仿loading样式 loading.gif图片如下：二、Jsp+css实现 […]...

展开目录

目录导航