一种数据处理方法及相关设备技术

技术编号:39394852 阅读:5 留言:0更新日期:2023-11-19 15:50
一种数据处理方法,涉及人工智能领域,通过对输入到head中的特征块进行多次线性变换,分别得到第一幅值、第二相位值、第二幅值以及第二相位值;第一幅值用于作为Q矩阵中元素的幅值,第一相位值用于作为Q矩阵中元素的相位;第二幅值用于作为K矩阵中元素的幅值,第二相位值用于作为K矩阵中元素的相位。本申请中为输入到head中的特征块分别生成Q矩阵中元素的幅度和相位、以及K矩阵中元素的幅度和相位,将Q矩阵和K矩阵参数化为更复杂的形式,进而增加特征的表达能力,可以更好地建模不同特征块之间的关系。间的关系。间的关系。

【技术实现步骤摘要】
一种数据处理方法及相关设备
[0001]本申请要求于2022年4月29日提交美国专利局、申请号为17/733,758、专利技术名称为“METHOD AND DEVICE FOR PROCESSING DATA BASED ON MULTI

LAYER PERCEPTRONS”的美国专利申请的优先权,其全部内容通过引用结合在本申请中。


[0002]本申请涉及人工智能领域,尤其涉及一种数据处理方法及相关设备。

技术介绍

[0003]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0004]随着人工智能技术的不断发展,让人机之间能够通过自然语言进行交互的自然语言人机交互系统变的越来越重要。人机之间能够通过自然语言进行交互,就需要系统能够识别出人类自然语言的具体含义。通常,系统通过采用对自然语言的句子进行关键信息提取来识别句子的具体含义。
[0005]transformer结构具有强大的语义表达能力,能捕捉文本长依赖关系。自被提出以来在以翻译为代表的一系列自然语言处理的任务上显著超越了之前的模型,基于transformer结构的语言模型在问答系统,语音助手等领域也取得了非常好的效果。
[0006]transformer结构的网络通过包括多头自注意力模块,然而,多头自注意力模块中的注意力头head仅在实数域范围内计算不同特征块之间的关系,建模能力不足。

技术实现思路

[0007]本申请提供了一种数据处理方法,为输入到head中的特征块token分别生成Q矩阵中元素的幅度和相位、以及K矩阵中元素的幅度和相位,增加特征的表达能力,可以更好地建模不同特征块之间的关系。
[0008]第一方面,本申请提供了一种数据处理方法,应用于基于注意力机制的神经网络中的注意力头head,所述方法包括:通过对输入到所述head中的特征块进行多次线性变换,分别得到第一幅值、第二相位值、第二幅值以及第二相位值;根据所述第一数值和所述第一相位值,得到Q矩阵;所述第一幅值用于作为Q矩阵中元素的幅值,所述第一相位值用于作为所述Q矩阵中元素的相位;根据所述第二幅值和所述第二相位值,得到K矩阵;所述第二幅值用于作为K矩阵中元素的幅值,所述第二相位值用于作为所述K矩阵中元素的相位;根据所述Q矩阵、所述K矩阵以及所述head中计算得到的V矩阵,得到所述head的输出。
[0009]在现有的实现中,用变换矩阵Q和变换矩阵K,对输入到head中的特征块token进行线性变换,分别得到Q矩阵和K矩阵,Q矩阵、K矩阵中的元素均为实数,对于特征的表达能力
有限。本申请中,可以为输入到head中的特征块token分别生成Q矩阵中元素的幅度和相位、以及K矩阵中元素的幅度和相位。通过这种方式,Q矩阵和K矩阵都可以参数化为复杂的形式,进而增加特征的表达能力,可以更好地建模不同特征块之间的关系。
[0010]在一种可能的实现中,所述根据所述Q矩阵、所述K矩阵以及所述head中计算得到的V矩阵,得到所述head的输出,包括:对所述Q矩阵和所述K矩阵进行相关度计算,得到第一注意力矩阵,所述第一注意力矩阵中的元素为复数;将所述第一注意力矩阵中的元素映射为实数,得到第二注意力矩阵;根据所述第二注意力矩阵和所述head中计算得到的V矩阵,得到所述head的输出。
[0011]在一种实现中,可以对所述Q矩阵和所述K矩阵进行相关度计算,得到第一注意力矩阵,由于Q矩阵和所述K矩阵本身是复数域的数,因此所述第一注意力矩阵中的元素为复数。
[0012]在一种实现中,在基于Q矩阵和K矩阵计算相关度时,所述Q矩阵和所述K矩阵中各个元素之间存在的相位差可以会导致对幅度进行调制,例如,与小相位差相关的特征可能会增强,而与大相位差相关的特征可能会减少,这类似于相干光引起的干涉现象。
[0013]在一种实现中,可以直接将qi与kj的点乘结果确定为关联度,由于上述计算得到的相关度需要和V矩阵进行加权运算,因此可以将所述第一注意力矩阵中的元素映射为实数,得到第二注意力矩阵,并根据所述第二注意力矩阵和所述head中计算得到的V矩阵,得到所述head的输出。
[0014]在一种实现中,可以将点乘结果除以一常数,然后进行softmax运算,由于softmax运算需要在实数域上进行,而Q矩阵和K矩阵之间进行运算的结果(也就是softmax运算的对象)为复数,因此,本申请实施例中可以对Q矩阵和K矩阵之间进行运算的结果(第一注意力矩阵)映射到实数域上。
[0015]在一种实现中,所述第一注意力矩阵中的元素包括实部和虚部,在将第一注意力矩阵中的元素映射为实数时,可以将所述第一注意力矩阵中元素的实部的数值和虚部的数值进行融合,以得到融合结果,所述融合结果为实数。
[0016]示例性的,所述融合,可以包括:求和操作;或者,求复数的模长。
[0017]在一种可能的实现中,所述通过对输入到所述head中的特征块的元素进行多次线性变换,分别得到第一幅值、第一相位值、第二幅值以及第二相位值,包括:通过线性规划层,对输入到所述head中的特征块进行多次线性变换;所述线性规划层包括第一权重、第二权重、第三权重以及第四权重,所述第一权重、所述第二权重、所述第三权重以及所述第四权重为可训练的参数;其中,所述第一权重用于对所述特征块进行线性变换,以得到所述第一幅值;所述第二权重用于对所述特征块进行线性变换,以得到所述第一相位值;所述第三权重用于对所述特征块进行线性变换,以得到所述第二幅值;所述第四权重用于对所述特征块进行线性变换,以得到所述第二相位值。
[0018]本申请中每个查询query和关键字key都使用两个线性变换层,分别生成幅值和相位,使得生成的query和key可以表达更丰富的信息。
[0019]在一种可能的实现中,所述特征块为与一段数据的一个切片相关联的信息,所述一段数据为音频数据、视频数据、图像数据或上下文数据。
[0020]第二方面,本申请提供了一种数据处理方法,所述方法包括:
[0021]通过对特征图中的第一特征块进行多次线性变换,分别得到第一幅值和第一相位值;
[0022]根据所述第一幅值和所述第一相位值,得到第二特征块;第一幅值用于作为所述第二特征块中元素的幅值,所述第一相位值用于作为所述第二特征块中元素的相位;将所述第二特征块中的元素映射为实数,得到第三特征块;将所述第三特征块,输入到卷积层中。
[0023]对于卷积层需要处理的特征图,可以将特征图中的各个特征块(本申请实施例以第一特征块为例)进行多次线性变换,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于基于注意力机制的神经网络中的注意力头head,所述方法包括:通过对输入到所述head中的特征块进行多次线性变换,分别得到第一幅值、第二相位值、第二幅值以及第二相位值;根据所述第一数值和所述第一相位值,得到Q矩阵;所述第一幅值用于作为Q矩阵中元素的幅值,所述第一相位值用于作为所述Q矩阵中元素的相位;根据所述第二幅值和所述第二相位值,得到K矩阵;所述第二幅值用于作为K矩阵中元素的幅值,所述第二相位值用于作为所述K矩阵中元素的相位;根据所述Q矩阵、所述K矩阵以及所述head中计算得到的V矩阵,得到所述head的输出。2.根据权利要求1所述的方法,其特征在于,所述根据所述Q矩阵、所述K矩阵以及所述head中计算得到的V矩阵,得到所述head的输出,包括:对所述Q矩阵和所述K矩阵进行相关度计算,得到第一注意力矩阵,所述第一注意力矩阵中的元素为复数;将所述第一注意力矩阵中的元素映射为实数,得到第二注意力矩阵;根据所述第二注意力矩阵和所述head中计算得到的V矩阵,得到所述head的输出。3.根据权利要求2所述的方法,其特征在于,所述第一注意力矩阵中的元素包括实部和虚部,所述将所述第一注意力矩阵中的元素映射为实数,包括:将所述第一注意力矩阵中元素的实部的数值和虚部的数值进行融合,以得到融合结果,所述融合结果为实数。4.根据权利要求3所述的方法,其特征在于,所述融合,包括:求和操作;或者,求复数的模长。5.根据权利要求1至4任一所述的方法,其特征在于,所述通过对输入到所述head中的特征块的元素进行多次线性变换,分别得到第一幅值、第一相位值、第二幅值以及第二相位值,包括:通过线性规划层,对输入到所述head中的特征块进行多次线性变换;所述线性规划层包括第一权重、第二权重、第三权重以及第四权重,所述第一权重、所述第二权重、所述第三权重以及所述第四权重为可训练的参数;其中,所述第一权重用于对所述特征块进行线性变换,以得到所述第一幅值;所述第二权重用于对所述特征块进行线性变换,以得到所述第一相位值;所述第三权重用于对所述特征块进行线性变换,以得到所述第二幅值;所述第四权重用于对所述特征块进行线性变换,以得到所述第二相位值。6.根据权利要求1至5任一所述的方法,其特征在于,所述特征块为与一段数据的一个切片相关联的信息,所述一段数据为音频数据、视频数据、图像数据或上下文数据。7.一种数据处理方法,其特征在于,所述方法包括:通过对特征图中的第一特征块进行多次线性变换,分别得到第一幅值和第一相位值;根据所述第一幅值和所述第一相位值,得到第二特征块;第一幅值用于作为所述第二特征块中元素的幅值,所述第一相位值用于作为所述第二特征块中元素的相位;将所述第二特征块中的元素映射为实数,得到第三特征块;
将所述第三特征块,输入到卷积层中。8.根据权利要求7所述的方法,其特征在于,所述将所述第二特征块中的元素映射为实数,包括:将所述第二特征块中元素表示为复数时的实部的数值和虚部的数值进行融合,以得到融合结果,所述融合结果为实数。9.根据权利要求8所述的方法,其特征在于,所述融合,包括:拼接操作(concat)。10.根据权利要求7至9任一所述的方法,其特征在于,所述通过对特征图中的第一特征块进行多次线性变换,分别得到第一幅值和第一相位值,包括:通过线性规划层,对特征图中的第一特征块进行多次线性变换;所述线性规划层包括第一权重和第二权重,所述第一权重和所述第二权重为可训练的参数;其中,所述第一权重用于对特征图中的第一特征块进行线性变换,以得到所述第一幅值;所述第二权重用于对特征图中的第一特征块进行线性变换,以得到所述第一相位值。11.一种数据处理装置,其特征在于,应用于基于注意力机制的神经网络中的注意力头head,所述装置包括:线性变换模块,用于通过对输入到所述head中的特征块进行多次线性变换,分别得...

【专利技术属性】
技术研发人员:唐业辉韩凯郭健元王云鹤
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1