一种数据处理方法及相关设备技术

技术编号:30348541 阅读:29 留言:0更新日期:2021-10-16 16:42
本申请涉及人工智能领域,公开了一种数据处理方法,包括:获取包括目标网络层以及目标模块的transformer模型,通过transformer模型对待处理数据进行处理,以得到数据处理结果;其中,目标模块用于对目标网络层的特征图输出进行目标运算,以得到运算结果,并将运算结果与特征图输出进行融合,以得到更新后的特征图输出。本申请在transformer模型中插入了目标模块,将目标模块生成的运算结果与输入进行融合,增加了transformer模型中目标网络层输出的特征图中携带的信息,且由于目标模块本身的参数量以及运算时需要的算力开销很小,相当于在降低模型参数量和算力开销的前提下,提高了模型的数据处理精度。模型的数据处理精度。模型的数据处理精度。

【技术实现步骤摘要】
一种数据处理方法及相关设备


[0001]本申请涉及人工智能领域,尤其涉及一种数据处理方法及相关设备。

技术介绍

[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0003]随着人工智能技术的不断发展,让人机之间能够通过自然语言进行交互的自然语言人机交互系统变的越来越重要。人机之间能够通过自然语言进行交互,就需要系统能够识别出人类自然语言的具体含义。通常,系统通过采用对自然语言的句子进行关键信息提取来识别句子的具体含义。
[0004]transformer结构具有强大的语义表达能力,能捕捉文本长依赖关系。自被提出以来在以翻译为代表的一系列自然语言处理的任务上显著超本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取transformer模型,所述transformer模型包括目标网络层以及目标模块;获取待处理数据,通过所述transformer模型对所述待处理数据进行处理,以得到数据处理结果;其中,所述目标模块用于对所述目标网络层的特征图输出进行目标运算,以得到运算结果,并将所述运算结果与所述特征图输出进行融合,以得到更新后的所述特征图输出;所述目标运算为基于卷积的非线性运算。2.根据权利要求1所述的方法,其特征在于,所述卷积所采用的卷积核包括的权重参数为通过正则化处理得到的。3.根据权利要求2所述的方法,其特征在于,所述卷积所采用的卷积核满足如下条件的至少一种:所述卷积核包括的权重参数的加和与1的差值在预设范围内;所述卷积核包括的权重参数为正数。4.根据权利要求1至3任一所述的方法,其特征在于,所述特征图输出与所述更新后的所述特征图输出的长宽尺寸一致。5.根据权利要求2至4任一所述的方法,其特征在于,所述非线性运算用于对所述卷积得到的结果进行非线性处理。6.根据权利要求1至5任一所述的方法,其特征在于,所述目标网络层包括注意力层。7.根据权利要求6所述的方法,其特征在于,所述注意力层包括M个注意力头,所述目标网络层的特征图输出包括所述M个注意力头的M个特征图输出;所述对所述目标网络层的特征图输出进行目标运算,以得到运算结果,并将所述运算结果与所述特征图输出进行融合,包括:对所述M个特征图输出进行N次目标运算,以得到N个第一特征图,并将所述N个第一特征图与所述M个注意力头的M个特征图输出进行融合。8.根据权利要求7所述的方法,其特征在于,所述将所述N个第一特征图与所述M个注意力头的M个特征图输出进行融合,包括:将所述N个第一特征图与所述M个注意力头的M个特征图输出进行加和运算。9.根据权利要求6所述的方法,其特征在于,所述注意力层包括M个注意力头,所述M个注意力头中的每个注意力头包括第一分支和第二分支,所述第一分支的输出为根据K向量和Q向量的点乘运算得到的,所述第二分支的输出为根据V向量得到的,所述目标网络层的特征图输出包括所述M个注意力头的M个第一分支的输出;所述对所述目标网络层的特征图输出进行目标运算,以得到运算结果,并将所述运算结果与所述特征图输出进行融合,包括:对所述M个第一分支的输出进行N次目标运算,以得到N个第二特征图,并将所述N个第二特征图与所述M个第一分支的输出进行融合。10.根据权利要求9所述的方法,其特征在于,所述将所述N个第二特征图与所述M个第一分支的输出进行融合,包括:将所述N个第二特征图与所述M个第一分支的输出进行拼接操作(concat)。11.根据权利要求6所述的方法,其特征在于,所述注意力层包括M个注意力头,所述M个注意力头中的每个注意力头包括第三分支,所述第三分支的输出为根据K向量、Q向量以及V
向量的点乘运算得到的,所述目标网络层的特征图输出包括所述M个注意力头的M个第三分支的输出;所述对所述目标网络层的特征图输出进行目标运算,以得到运算结果,并将所述运算结果与所述特征图输出进行融合,包括:对所述M个第三分支的输出进行N次目标运算,以得到N个第三特征图,并将所述N个第三特征图与所述M个第三分支的输出进行融合。12.根据权利要求11所述的方法,其特征在于,所述将所述N个第三特征图与所述M个第三分支的输出进行融合,包括:将所述N个第三特征图与所述M个第三分支的输出进行拼接操作。13.根据权利要求1至5任一所述的方法,其特征在于,所述目标网络层包括前馈层FFN。14.根据权利要求13所述的方法,其特征在于,所述FFN包括中间层,所述中间层包括X组神经元,所述目标网络层的特征图输出包括所述X组神经元的X个特征图输出;所述对所述目标网络层的特征图输出进行目标运算,以得到运算结果,并将所述运算结果与所述特征图输出进行融合,包括:对所述X个特征图输出进行N次目标运算,以得到N个第四特征图,并将所述N个第四特征图与所述X组神经元的特征图输出进行融合。15.根据权利要求14所述的方法,其特征在于,所述将所述N个第四特征图与所述X组神经元的特征图输出进行融合,包括:将所述N个第四特征图与所述X组神经元的X个特征图输出进行拼接操作。16.根据权利要求13所述的方法,其特征在于,所述FFN包括中间层和输出层,所述中间层包括X组神经元,所述输出层用于对所述X组神经元的X个特征图输出进行处理,以得到X个输出层输出,所述目标网络层的特征图输出包括所述X个输出层输出;所述对所述目标网络层的特征图输出进行目标运算,以得到运算结果,并将所述运算结果与所述特征图输出进行融合,包括:对所述X个输出层输出进行N次目标运算,以得到N个第五特征图,并将所述N个第五特征图与所述X个输出层输出进行融...

【专利技术属性】
技术研发人员:侯璐尚利峰蒋欣钱莉
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1