实现独立于注意力机制的拷贝机制的方法及设备技术

技术编号:19646985 阅读:74 留言:0更新日期:2018-12-05 20:30
本发明专利技术的目的是提供一种实现独立于注意力机制的拷贝机制的方法及设备,本发明专利技术依次通过语境编码、过滤编码、解码‑准备输入、解码‑生成输、解码‑拷贝调制、解码‑拷贝概率图解码‑加权输出,本发明专利技术的拷贝机制相对独立与注意力机制,尤其是其概率分布独立于注意力机制的概率分布,有利于拷贝机制发挥其效能。

Method and Equipment for Implementing Copy Mechanism Independent of Attention Mechanism

The object of the present invention is to provide a method and device for realizing a copy mechanism independent of attention mechanism. The copy mechanism of the present invention is relative to that of the present invention by means of context encoding, filtering encoding, decoding, preparing input, decoding, generating input, decoding, copy modulation, decoding, copy probability map decoding and weighted output. Independence and attention mechanism, especially the probability distribution which is independent of attention mechanism, are beneficial to the effectiveness of copy mechanism.

【技术实现步骤摘要】
实现独立于注意力机制的拷贝机制的方法及设备
本专利技术涉及计算机领域,尤其涉及一种实现独立于注意力机制的拷贝机制的方法及设备。
技术介绍
在传统的拷贝机制中原文中拷贝概率分布来自于注意力机制,会让拷贝的词达到超过95%,而实际上统计发现这一比例正常情况下应该只在60%左右,而且这95%以上的拷贝很多还是错的,所以传统的拷贝机制亟需提高。
技术实现思路
本专利技术的一个目的是提供一种实现独立于注意力机制的拷贝机制的方法及设备。根据本专利技术的一个方面,提供了一种实现独立于注意力机制的拷贝机制的方法,该方法包括:把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向本文档来自技高网...

【技术保护点】
1.一种实现独立于注意力机制的拷贝机制的方法,其中,该方法包括:把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;解码第Mj个字(j≥1)之前准备好三个向量:...

【技术特征摘要】
1.一种实现独立于注意力机制的拷贝机制的方法,其中,该方法包括:把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;解码第Mj个字(j≥1)之前准备好三个向量:包括第M(j-1)个字、在解码前一个字后生成的解码状态g(j-1)和对应的注意力向量,其中,当j等于1时,第M(j-1)个字为START符号;当j等于1时,解码前一个字后生成的解码状态g(j-1)就是e;对应的注意力向量为:把所述解码状态g(j-1)和状态S中每个单位的向量经过转换变成维数相同的向量后,把转换维数后的解码状态g(j-1)中的每个向量分别加到转换维数后的每个向量里面去,然后把相加得到的每个向量内加变成N个数,然后将N个数经过一个softmax得到N个概率,然后将所述N个概率分别和所述状态S中每个相应单位的向量相乘后相加得到一个注意力向量;将第M(j-1)个字和所述注意力向量输入到一个神经元中,得到一个输出Oj和一个解码状态g(j),将所述输出Oj经过一个映射后生成一个长度为V的向量,长度为V的向量的数值分别代表单词表中每个词汇单元的重要性;将所述解码状态g(j-1)和所述T中每个向量经过转换后变成维度相同的向量后,然后所述经过转换后的解码状态g(j-1)的每个向量分别加到所述经过转换后的后者的每个向量中,然后把相加得到的每个向量经过内加后变成由N个数形成的向量C;把所述向量C分别乘以所述T然后相加得到一个拷贝向量,所述拷贝向量代表待拷贝的单位的整体意思,然后把这个拷贝向量、第Mj个字和解码状态g(j-1)经过映射后生成一个概率PC;把所述向量C中每个数对应的长文本中的单位的数值乘以所述概率PC,把所述长度为V的向量相对应的单位上得到的数值乘以1-PC,如果拷贝的单位不存在于预设词汇表中,则用所述概率PC乘以所述向量C中该单位的数值作为其权值,然后把同一个单位对应的数值相加得到每一个单位的权值,然后根据每一个单位的权值,并用softmax得到每个单位的概率,取概率最大的那个单位为输出作为长度为M个单位的摘要。2.根据权利要求1所述的方法,其中,把长度为N个单位长文本进行编码,包括:采用双向的RNN或CNN的编码方式,把长度为N个单位长文本进行编码。3.根据权利要求1所述的方法,其中,将所述结果输入一个激活函数生成一个新的向量,包括:将所述结果输入一个sigmoid激活函数生成一个新的向量。4.根据权利要求1所述的方法,其中,将第M(j-1)个字和所述注意力向量输入到一个神经元中,包括:将第M(j-1)个字和所述注意力向量输入到一个LSTM或者GRU的神经元中。5.一种现独立于注意力机制的拷贝机制设备,其中,该设备包括:语境编码装置,用于把长度为N个单位长文本进行编码,生成N个向量和一个代表整句话含义的一个输出向量e,其中,所述长文本包括长度为N个单位的字或词,所述N个向量分别对应长文本中包含语境含义的每个单位的状态S(s1,s2,s3...sN);过滤编码装置,用于把所述输出向量e转化为和状态si(i=1~N)同一维度的向量后和状态si相加得到结果,将所述结果输入一个激活函数生成一个新的向量,用所述新的向量乘以所述状态si得到ti(i=1~N),其中,把S中每个向量si都这样处理,得到T(t1,t2,t3...tN),T中含有N个向量;解码-准备输入装置,用于解码第Mj个字(j≥1)之前准备好三个向量:包括第M(j-1)个字、在解码前一个字后生成的解码状态g(j-1)和对应的注意力向量,其中,当j等于1时,第M(j-1)个字为START符号;当j等于1时,解码前一个字后生成的解码状态g(j-1)就是e;对应的注意力向量为:把所述解码状态g(j-1)和状态S中每个单位的向量经过转换变成维数相同的向量后,把转换维数后的解码状态g(j-1)中的每个向量分别加到转换维数后的每个向量里面去,然后把相加得到的每个向量内加变成N个数,然后将N个数经过一个softmax得到N个概率,然后将所述N个概率分别和所述状态S中每个相应单位的向量相乘后相加得到一个注意力向量;解码生成输出装置,用于将第M(j-1)个字和所述注意力向量输入到一个神经元中,得到一个输出Oj和一个解码状态g(j),将所述输出Oj经过一个映射后生成一个长度为V的向量,长度为V的向量的数值分别代表单词表中每个词汇单元的重要性;解码拷贝调制装置,用于将所述解码状态g(j-1)和所述T中每个向量经过转换后变成维度相同的向量后,然后所述经过转换后的解码状态g(j-1)的每个向量分别加到所述经过转换后的后者的每个向量中,然后把相加得到的每个向量经过内加后变成由N个数形成的向量C;解码拷贝概率装置,用于把所述向量C分别乘以所述T然后相加得到一个拷贝向量,所述拷贝向量代表待拷贝的单位的整体意思,然后把这个拷贝向量、第Mj个字和解码状态g(j-1)经过映射后生成一个概率PC;解码加权输出装置,用于把所述向量C中每个数对应的长文本中的单位的数值乘以所述概率PC,把所述长度为V的向量相对应的单位上得到的数值乘以1-PC,如果拷贝的单位不存在于预设词汇表中,则用所述概率PC乘以所述向量C中该单位的数值作为其权值,然后把同一个单位对应的数值相加得到每一个单位的权值,然后根据每一个单位的权值,并用softmax得到每个单位...

【专利技术属性】
技术研发人员:章乐陆晨昱舒畅何永李传丰武拥珍
申请(专利权)人:义语智能科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1