BLEU:Bilingual evaluation understudy
BLEU:Bilingual evaluation understudy
NMT/BLEU
N-gram
比较机翻和答案之间n组词的相似的一个占比
原文:今天天气不错
机翻:It is a nice day today
答案:Today is a nice day
1-gram:
机翻一共6个词 5个都命中
1-gram precision 5/6
3-gram:
机翻一共可以分为四个3-gram的词组 其中两个可以命中答案
3-gram precision 2/4
一词类推可以计算到N-gram的precision
一般来说,1-gram的结果代表了有多少个词被单独翻译出来了,反映了翻译的充分性。2-gram以上的结果反映了译文的流畅度,越高翻译可读性高。
Precison and Modified n-gram precision
机翻: the the the the the the the.
答案 1: The cat is on the mat.
答案 2: There is a cat on the mat.
每一个句子都可以得到一个Modified n-gram precision,一个句子不能代表文本翻译的水平高低,于是把一段话或者所有翻译句子的结果综合起来:
(将候选段落的所有n-gram进行了截断统计作为分子,分母是候选段落的n-gram的个数)
比如说Modified 1-gram precision就分母是机翻答案有多少个单词。
然后分子是 所有不重复单词求COUNTclip然后加起来。
多个modified n-gram precision进行组合
unigram和n-gram下的指标进行组合使用
随着n-gram的增大,Precision总体上成指数下降的,而且可以粗略的看成随着n而指数级的下降。我们这里采取几何加权平均,并且将各n-gram的作用视为等重要的,即取权重服从均匀分布。
(Wn 权重 这里当做一样的)
Sentence brevity penalty
有一个大问题 ,短译句容易得高分!
最佳匹配长度 :best match length
如果机翻和任意一个答案长度相同,那就认为满足最佳匹配长度。这种情况下就不惩罚了。
c:机翻总长度
r:答案总长度
(通常这个N取4,wn=1/4,这就是很多论文里面的一个经典指标Bleu4)