一种数据处理方法及装置制造方法及图纸

技术编号:32430110 阅读:14 留言:0更新日期:2022-02-24 18:40
本申请提供一种数据处理方法及装置,对于编码器的至少一个编码层,所述方法包括:接收待翻译文本对应的待编码矩阵;根据所述待编码矩阵进行深度分离卷积操作获得第一子层矩阵,根据所述待编码矩阵进行自注意力计算获得第二子层矩阵;将所述第一子层矩阵和所述第二子层矩阵进行线性门控处理,获得融合矩阵;将所述融合矩阵进行线性变换,得到输出的所述待翻译文本对应的编码矩阵。本申请通过在编码层中增加深度分离卷积层,增强编码器的表征能力,增强语言翻译模型的性能。增强语言翻译模型的性能。增强语言翻译模型的性能。

【技术实现步骤摘要】
一种数据处理方法及装置


[0001]本申请涉及计算机
,特别涉及一种数据处理方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]随着计算机运算能力的提升,神经网络的应用越来越广泛,例如构建翻译模型,以实现待翻译语句到目标语句的转换。
[0003]翻译模型是一种端到端的网络结构,包括编码器和解码器,其中编码器对输入信息进行编码处理获得编码结果,然后解码器同时接收编码器的编码结果进行解码,并将解码信息输入线性层、归一化层,最终获取相应的翻译结果,目前的编码器用自注意力层来获取编码器的表征能力,自注意力层在获取表征能力时有一定的局限性,制约了翻译模型性能的提升。
[0004]因此,如何能提升编码器的表征能力,就成为技术人员亟待解决的问题。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种数据处理方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0006]根据本申请实施例的第一方面,提供了一种数据处理方法,对于编码器的至少一个所述编码层,所述方法包括:
[0007]接收待翻译文本对应的待编码矩阵;
[0008]根据所述待编码矩阵进行深度分离卷积操作获得第一子层矩阵,根据所述待编码矩阵进行自注意力计算获得第二子层矩阵;
[0009]将所述第一子层矩阵和所述第二子层矩阵进行线性门控处理,获得融合矩阵;
[0010]将所述融合矩阵进行线性变换,得到输出的所述待翻译文本对应的编码矩阵。
[0011]可选的,对于第一个编码层,在接收待翻译文本对应的待编码矩阵之前,包括:
[0012]接收待翻译文本;
[0013]对所述待翻译文本做嵌入化处理,获得待翻译文本矩阵;
[0014]对所述待翻译文本矩阵添加位置编码,生成待编码矩阵。
[0015]可选的,对于除去第一个编码层的其他编码层;
[0016]接收待翻译文本对应的待编码矩阵,包括:
[0017]接收上一个编码层输出的编码矩阵,并将所述编码矩阵作为当前编码层的待编码矩阵。
[0018]可选的,根据所述待编码矩阵进行深度分离卷积操作获得第一子层矩阵,包括:
[0019]对所述待编码矩阵进行逐通道卷积处理,获得初始第一子层矩阵;
[0020]对所述初始第一子层矩阵进行逐点卷积,获得第一子层矩阵。
[0021]可选的,所述方法还包括:
[0022]将最后一个编码层输出的编码矩阵作为所述编码器的最终编码矩阵;或
[0023]根据每个编码层输出的编码矩阵做加权运算,获得所述编码器的最终编码矩阵。
[0024]可选的,所述方法还包括:
[0025]将所述最终编码矩阵输入至解码器,以使所述解码器对所述最终编码进行解码,得到所述编码矩阵的翻译信息。
[0026]根据本申请实施例的第二方面,提供了一种数据处理装置,配置于编码器的至少一个编码层,所述装置包括:
[0027]第一接收模块,被配置为接收待翻译文本对应的待编码矩阵;
[0028]编码矩阵处理模块,被配置为根据所述待编码矩阵进行深度分离卷积操作获得第一子层矩阵,根据所述待编码矩阵进行自注意力计算获得第二子层矩阵;
[0029]门控处理模块,被配置为将所述第一子层矩阵和所述第二子层矩阵进行线性门控处理,获得融合矩阵;
[0030]线性变换模块,被配置为将所述融合矩阵进行线性变换,得到输出的所述待翻译文本对应的编码矩阵。
[0031]可选的,在第一编码层之前,所述装置还包括:
[0032]第二接收模块,被配置为接收待翻译文本;
[0033]嵌入化模块,被配置为对所述待翻译文本做嵌入化处理,获得待翻译文本矩阵;
[0034]位置编码模块,被配置为对所述待翻译文本矩阵添加位置编码,生成待编码矩阵。
[0035]可选的,对于除去第一个编码层的其他编码层;
[0036]所述第一接收模块,被配置为接收上一个编码层输出的编码矩阵,并将所述编码矩阵作为当前编码层的待编码矩阵。
[0037]可选的,所述编码矩阵处理模块,被配置为对所述待编码矩阵进行逐通道卷积处理,获得初始第一子层矩阵;对所述初始第一子层矩阵进行逐点卷积,获得第一子层矩阵。
[0038]可选的,所述装置还包括:
[0039]最终编码矩阵确定模块,被配置为将最后一个编码层输出的编码矩阵作为所述编码器的最终编码矩阵;或根据所有编码层输出的编码矩阵进行计算,得到所述编码器的最终编码矩阵。
[0040]可选的,所述装置还包括:
[0041]解码模块,被配置为将所述最终编码矩阵输入至解码器,以使所述解码器对所述最终编码进行解码,得到所述编码矩阵的翻译信息。
[0042]根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述数据处理方法的步骤。
[0043]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述数据处理方法的步骤。
[0044]根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述数据处理方法的步骤。
[0045]本申请实施例提供的数据处理方法,在编码层中增加独立于自注意力层的深度分离卷积层,将输入编码层的待编码矩阵同时送入深度分离卷积层和自注意力层进行处理,
获得代表不同维度特征的第一子层矩阵和第二子层矩阵,再由线性门控单元根据所述第一子层矩阵和第二子层矩阵进行特征融合计算得到融合矩阵,再经过前馈神经网络层的线性处理获得当前编码层输出的编码矩阵,深度分离卷积层为编码层向量提供了另一个维度的信息表征,线性门控单元融合深度分离卷积层的特征和自注意力层的特征,可以有效地增强编码器的表征能力,增强语言翻译模型的性能。
附图说明
[0046]图1是本申请实施例提供的计算设备的结构框图;
[0047]图2是本申请实施例提供的数据处理方法的流程图;
[0048]图3是本申请实施例提供的编码层中的模型结构示意图;
[0049]图4是本申请实施例提供的语言翻译模型的结构示意图;
[0050]图5是本申请实施例提供的数据处理装置的结构示意图。
具体实施方式
[0051]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0052]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,对于编码器的至少一个编码层,所述方法包括:接收待翻译文本对应的待编码矩阵;根据所述待编码矩阵进行深度分离卷积操作获得第一子层矩阵,根据所述待编码矩阵进行自注意力计算获得第二子层矩阵;将所述第一子层矩阵和所述第二子层矩阵进行线性门控处理,获得融合矩阵;将所述融合矩阵进行线性变换,得到输出的所述待翻译文本对应的编码矩阵。2.如权利要求1所述的数据处理方法,其特征在于,对于第一个编码层,在接收待翻译文本对应的待编码矩阵之前,包括:接收待翻译文本;对所述待翻译文本做嵌入化处理,获得待翻译文本矩阵;对所述待翻译文本矩阵添加位置编码,生成待编码矩阵。3.如权利要求1所述的数据处理方法,其特征在于,对于除去第一个编码层的其他编码层;接收待翻译文本对应的待编码矩阵,包括:接收上一个编码层输出的编码矩阵,并将所述编码矩阵作为当前编码层的待编码矩阵。4.如权利要求1所述的数据处理方法,其特征在于,根据所述待编码矩阵进行深度分离卷积操作获得第一子层矩阵,包括:对所述待编码矩阵进行逐通道卷积处理,获得初始第一子层矩阵;对所述初始第一子层矩阵进行逐点卷积,获得第一子层矩阵。5.如权利要求1所述的数据处理方法,其特征在于,所述方法还包括:将最后一个编码层输出的编码矩阵作为所述编码器的最终编码矩阵;或根据每个编码层输出的编码矩阵做加权运算,获得所述编码器的最终编码矩阵。6.如权利要求5所述的数据处理方法,其特征在于,所述方法还包括:将所述最终编码矩阵输入至解码器,以使所述解码器对所述最终编码进行解码,得到所述编码矩阵的翻译信息。7.一种数据处理装置,其特征在于,配置于编码器的至少一个编码层,所述装置包括:第一接收模块,被配置为接收待翻译文本对应的待编码矩阵;编码矩阵处理模块,被配置为根据所述待编码矩阵进行深度分离卷积操作获得第一子层矩阵,根据所述待编码...

【专利技术属性】
技术研发人员:李长亮郭馨泽
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1