一种基于注意力共享Transformer的语法改错模型制造技术

技术编号:26172178 阅读:19 留言:0更新日期:2020-10-31 13:48
本发明专利技术涉及神经翻译的语法改错模型技术领域,尤其是一种基于注意力共享Transformer的语法改错模型,包括编码器与解码器,所述编码器由多层结构组成,每层结构均包含自注意力层与前馈神经网络,数据输入自注意力层,自注意力层进行计算后输出处理数据至前馈神经网络,前馈神经网络输出处理结果至解码器;所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成,解码器的前馈神经网络输出计算数据,并通过Softmax映射到词汇表上的概率分布,本发明专利技术的语法改错模型,注意力共享机制下,语法改错模型的效果(F0.5)几乎与基线系统相同,但却可以减少计算量,加快推理速度。

【技术实现步骤摘要】
一种基于注意力共享Transformer的语法改错模型
本专利技术涉及神经翻译的语法改错模型
,具体领域为一种基于注意力共享Transformer的语法改错模型。
技术介绍
基于神经翻译的语法改错模型是解决语法改错这个问题最为有效的方法之一。其原理是把有语法错误的句子视作源语言,无语法错误的句子视作目标语言的翻译过程。常见的神经翻译模型,如基于循环神经网络的编码解码模型、基于卷积编码器的神经翻译模型、Transformer等被成功地运用于语法改错这个任务中。在大量平行语料以及模型预训练技术的支持下,相比于其它方法(如基于规则的方法、基于分类的方法、基于语言模型的方法、基于统计翻译的方法等),基于神经翻译的语法改错模型,改错的效果得到了显著的提升。
技术实现思路
本专利技术的目的在于提供一种基于注意力共享Transformer的语法改错模型。为实现上述目的,本专利技术提供如下技术方案:一种基于注意力共享Transformer的语法改错模型,包括编码器与解码器,所述编码器由多层结构组成,每层结构均包含自注意力层与前馈神经网络,数据输入自注意力层,自注意力层进行计算后输出处理数据至前馈神经网络,前馈神经网络输出处理结果至解码器;所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成,数据输入自注意力层,自注意力层进行计算后输出处理数据至编码器解码器注意力层,同时编码器输出的数据输入编码器解码器注意力层,编码器解码器注意力层处理数据后输出至解码器的前馈神经网络,由解码器的前馈神经网络输出计算数据,并通过Softmax映射到词汇表上的概率分布;编码器中的自注意力层和解码器中的自注意力层为相同的机制模块,自注意层包括注意力机制和多头注意力;编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块;编码器和解码器中的各个连接模块之间,从前一模块输出在输入下一模块前需要进行残差连接与层归一化处理。优选的,注意力机制的计算规则为:attention(a,V)=aV其中a仅在第一层计算一次,之后的几层均直接使用第一层的a。优选的,多头注意力的计算规则为:MultiHead(V)=Concat(head1,...,headh)WO在自注意力层中Q=K=V;在编码器解码器注意力层中,K与V来自编码器的输出,而Q来自解码器的输入。优选的,前馈神经网络的计算规则为:FFN(x)=max(0,xW1+b1)W2+b2在前馈神经网络中,输入输出的维度为d,内部的维度为4d,其中为模型参数。优选的,残差连接与层归一化处理计算规则为:NormAdd(X)=LayerNorm(X+SubLayer(X))。优选的,解码器输出的数据通过Softmax映射,其处理规则为:pt=softmax(dtWvocab)其中dt表示t时刻解码器的输出,Wvocab表示词嵌入矩阵。优选的,从自注意力层输入的数据为目标函数。优选的,目标函数的计算规则为:其中T表示输入的文本长度,yt表示标签,XN表示编码器的输出。与现有技术相比,本专利技术的有益效果是:基于神经翻译的语法改错模型是目前解决语法改错这个问题最为有效的方法。基础的Transformer有编码器与解码器构成。其中Transformer编码器的基础单元由自注意力结构与前馈神经网络构成。解码器结构与编码器结构类似,但多一层编码器解码器注意力层用于连接编码器与解码器。其中自注意力结构可以构建出句子中词与词之间的关系,其有效性在多个自然语言处理任务中被广泛地证明,通过注意力共享的策略能够在维持改错性能基本不变的情况下,降低注意力层的计算复杂度与空间复杂度。具体来说,在Transformer的编码器与解码器中,均有多层相同的结构构成,每层中都有自注意力机制,自注意力机制中的注意力权重计算是计算复杂度最高的步骤。编码器与解码器的多层结构可以分别共享一个注意力权重,从而降低计算与空间复杂度。附图说明图1为本专利技术的模型结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种技术方案:一种基于注意力共享Transformer的语法改错模型,包括编码器与解码器,所述编码器由多层结构组成,每层结构均包含自注意力层与前馈神经网络,数据输入自注意力层,自注意力层进行计算后输出处理数据至前馈神经网络,前馈神经网络输出处理结果至解码器;所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成,数据输入自注意力层,自注意力层进行计算后输出处理数据至编码器解码器注意力层,同时编码器输出的数据输入编码器解码器注意力层,编码器解码器注意力层处理数据后输出至解码器的前馈神经网络,由解码器的前馈神经网络输出计算数据,并通过Softmax映射到词汇表上的概率分布;编码器中的自注意力层和解码器中的自注意力层为相同的机制模块,自注意层包括注意力机制和多头注意力;编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块;编码器和解码器中的各个连接模块之间,从前一模块输出在输入下一模块前需要进行残差连接与层归一化处理。注意力机制的计算规则为:attention(a,V)=aV其中a仅在第一层计算一次,之后的几层均直接使用第一层的a。多头注意力的计算规则为:MultiHead(V)=Concat(head1,...,headh)WO在自注意力层中Q=K=V;在编码器解码器注意力层中,K与V来自编码器的输出,而Q来自解码器的输入。前馈神经网络的计算规则为:FFN(x)=max(0,xW1+b1)W2+b2在前馈神经网络中,输入输出的维度为d,内部的维度为4d,其中为模型参数。残差连接与层归一化处理计算规则为:NormAdd(X)=LayerNorm(X+SubLayer(X))。解码器输出的数据通过Softmax映射,其处理规则为:pt=softmax(dtWvocab)其中dt表示t时刻解码器的输出,Wvocab表示词嵌入矩阵。从自注意力层输入的数据为目标函数,目标函数的计算规则为:其中T表示输入的文本长度,yt表示标签,XN表示编码器的输出。通过本技术方案,在实际运用过程中:实验设置的参数:编码器与解码器的层数N=6;模型维度d=1024;MultiHeadAttention的Heads=8;采用了Adam作为优化算法本文档来自技高网...

【技术保护点】
1.一种基于注意力共享Transformer的语法改错模型,其特征在于:包括编码器与解码器,所述编码器由多层结构组成,每层结构均包含自注意力层与前馈神经网络,数据输入自注意力层,自注意力层进行计算后输出处理数据至前馈神经网络,前馈神经网络输出处理结果至解码器;/n所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成,数据输入自注意力层,自注意力层进行计算后输出处理数据至编码器解码器注意力层,同时编码器输出的数据输入编码器解码器注意力层,编码器解码器注意力层处理数据后输出至解码器的前馈神经网络,由解码器的前馈神经网络输出计算数据,并通过Softmax映射到词汇表上的概率分布;/n编码器中的自注意力层和解码器中的自注意力层为相同的机制模块,自注意层包括注意力机制和多头注意力;/n编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块;/n编码器和解码器中的各个连接模块之间,从前一模块输出在输入下一模块前需要进行残差连接与层归一化处理。/n

【技术特征摘要】
1.一种基于注意力共享Transformer的语法改错模型,其特征在于:包括编码器与解码器,所述编码器由多层结构组成,每层结构均包含自注意力层与前馈神经网络,数据输入自注意力层,自注意力层进行计算后输出处理数据至前馈神经网络,前馈神经网络输出处理结果至解码器;
所述解码器由自注意力层、编码器解码器注意力层与前馈神经网络构成,数据输入自注意力层,自注意力层进行计算后输出处理数据至编码器解码器注意力层,同时编码器输出的数据输入编码器解码器注意力层,编码器解码器注意力层处理数据后输出至解码器的前馈神经网络,由解码器的前馈神经网络输出计算数据,并通过Softmax映射到词汇表上的概率分布;
编码器中的自注意力层和解码器中的自注意力层为相同的机制模块,自注意层包括注意力机制和多头注意力;
编码器中的前馈神经网络和解码器中的前馈神经网络为相同的机制模块;
编码器和解码器中的各个连接模块之间,从前一模块输出在输入下一模块前需要进行残差连接与层归一化处理。


2.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型,其特征在于:注意力机制的计算规则为:



attention(a,V)=aV
其中a仅在第一层计算一次,之后的几层均直接使用第一层的a。


3.根据权利要求1所述的一种基于注意力共享Transformer的语法改错模型,其特征在于:多头注意力的计算规则为:
MultiHead(V)=Concat(head1,...,headh)WO
...

【专利技术属性】
技术研发人员:徐书尧陈进秦龙
申请(专利权)人:北京先声智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1