一种基于注意力共享Transformer的语法改错模型制造技术

技术编号：26172178 阅读：19 留言：0更新日期：2020-10-31 13:48

本发明专利技术涉及神经翻译的语法改错模型技术领域，尤其是一种基于注意力共享Transformer的语法改错模型，包括编码器与解码器，所述编码器由多层结构组成，每层结构均包含自注意力层与前馈神经网络，数据输入自注意力层，自注意力层进行计算后输出处理数据至前馈神经网络，前馈神经网络输出处理结果至解码器；所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成，解码器的前馈神经网络输出计算数据，并通过Softmax映射到词汇表上的概率分布，本发明专利技术的语法改错模型，注意力共享机制下，语法改错模型的效果(F0.5)几乎与基线系统相同，但却可以减少计算量，加快推理速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力共享Transformer的语法改错模型
本专利技术涉及神经翻译的语法改错模型
，具体领域为一种基于注意力共享Transformer的语法改错模型。
技术介绍
基于神经翻译的语法改错模型是解决语法改错这个问题最为有效的方法之一。其原理是把有语法错误的句子视作源语言，无语法错误的句子视作目标语言的翻译过程。常见的神经翻译模型，如基于循环神经网络的编码解码模型、基于卷积编码器的神经翻译模型、Transformer等被成功地运用于语法改错这个任务中。在大量平行语料以及模型预训练技术的支持下，相比于其它方法(如基于规则的方法、基于分类的方法、基于语言模型的方法、基于统计翻译的方法等)，基于神经翻译的语法改错模型，改错的效果得到了显著的提升。
技术实现思路
本专利技术的目的在于提供一种基于注意力共享Transformer的语法改错模型。为实现上述目的，本专利技术提供如下技术方案：一种基于注意力共享Transformer的语法改错模型，包括编码器与解码器，所述编码器由多层结构组成，每层结构均包含自注意力层与前馈神经网络，数据输入自注意力层，自注意力层进行计算后输出处理数据至前馈神经网络，前馈神经网络输出处理结果至解码器；所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成，数据输入自注意力层，自注意力层进行计算后输出处理数据至编码器解码器注意力层，同时编码器输出的数据输入编码器解码器注意力层，编码器解码器注意力层处理数据后输出至解码器的前馈神经网络，由解码器的前馈...

【技术保护点】
1.一种基于注意力共享Transformer的语法改错模型，其特征在于：包括编码器与解码器，所述编码器由多层结构组成，每层结构均包含自注意力层与前馈神经网络，数据输入自注意力层，自注意力层进行计算后输出处理数据至前馈神经网络，前馈神经网络输出处理结果至解码器；/n所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成，数据输入自注意力层，自注意力层进行计算后输出处理数据至编码器解码器注意力层，同时编码器输出的数据输入编码器解码器注意力层，编码器解码器注意力层处理数据后输出至解码器的前馈神经网络，由解码器的前馈神经网络输出计算数据，并通过Softmax映射到词汇表上的概率分布；/n编码器中的自注意力层和解码器中的自注意力层为相同的机制模块，自注意层包括注意力机制和多头注意力；/n编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块；/n编码器和解码器中的各个连接模块之间，从前一模块输出在输入下一模块前需要进行残差连接与层归一化处理。/n

【技术特征摘要】
1.一种基于注意力共享Transformer的语法改错模型，其特征在于：包括编码器与解码器，所述编码器由多层结构组成，每层结构均包含自注意力层与前馈神经网络，数据输入自注意力层，自注意力层进行计算后输出处理数据至前馈神经网络，前馈神经网络输出处理结果至解码器；
所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成，数据输入自注意力层，自注意力层进行计算后输出处理数据至编码器解码器注意力层，同时编码器输出的数据输入编码器解码器注意力层，编码器解码器注意力层处理数据后输出至解码器的前馈神经网络，由解码器的前馈神经网络输出计算数据，并通过Softmax映射到词汇表上的概率分布；
编码器中的自注意力层和解码器中的自注意力层为相同的机制模块，自注意层包括注意力机制和多头注意力；
编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块；
编码器和解码器中的各个连接模块之间，从前一模块输出在输入下一模块前需要进行残差连接与层归一化处理。

2.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型，其特征在于：注意力机制的计算规则为：

attention(a，V)＝aV
其中a仅在第一层计算一次，之后的几层均直接使用第一层的a。

3.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型，其特征在于：多头注意力的计算规则为：
MultiHead(V)＝Concat(head1，...，headh)WO
...

【专利技术属性】
技术研发人员：徐书尧，陈进，秦龙，
申请(专利权)人：北京先声智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人