预训练模型中注意力矩阵的更新方法、装置及电子设备制造方法及图纸

技术编号:38140751 阅读:6 留言:0更新日期:2023-07-08 09:55
本公开公开了一种预训练模型中注意力矩阵的更新方法、装置及电子设备,涉及计算机技术领域,具体涉及自然语言处理、深度学习等人工智能技术领域。包括:生成待掩码的第一注意力矩阵对应的第一掩码矩阵及第二掩码矩阵;将当前任务对应的样本数据分别输入第一掩码矩阵对应的第一模型及第二掩码矩阵对应的第二模型,以获取第一奖励值及第二奖励值;进而生成第三掩码矩阵;基于第三掩码矩阵,返回执行获取掩码后的模型的操作,直至获取第一注意力矩阵在样本数据下的目标掩码矩阵。由此,通过前向推断,可以较为快速的确定出目标掩码矩阵,涉及的数据量较少,从而节省了计算资源,同时也节省了确定目标掩码矩阵的时间,提高了效率。率。率。

【技术实现步骤摘要】
预训练模型中注意力矩阵的更新方法、装置及电子设备


[0001]本公开涉及计算机
,具体涉及自然语言处理、深度学习等人工智能
,尤其涉及一种预训练模型中注意力矩阵的更新方法、装置、电子设备和存储介质。

技术介绍

[0002]随着计算机技术的发展,自然语言处理应用的也越来越广泛。
[0003]为了快速地获取与当前任务匹配的目标模型,可以基于当前任务对应的训练数据对预训练模型中每个自注意力层对应的注意力矩阵进行更新,以获取当前任务对应的目标模型。因此,如何减少对注意力矩阵进行更新的计算量,以节省计算资源成为重点的研究方向。

技术实现思路

[0004]本公开提供了一种预训练模型中注意力矩阵的更新方法、装置及电子设备。
[0005]本公开一方面,提供了一种预训练模型中注意力矩阵的更新方法,包括:
[0006]基于待掩码的第一注意力矩阵在预训练模型中的第一层数,生成第一掩码矩阵及第二掩码矩阵;
[0007]分别基于所述第一掩码矩阵及所述第二掩码矩阵,对所述第一注意力矩阵进行掩码,获取掩码后的第一模型及第二模型;
[0008]将当前任务对应的样本数据分别输入所述第一模型及所述第二模型,以获取所述第一掩码矩阵对应的第一奖励值及所述第二掩码矩阵对应的第二奖励值;
[0009]根据所述第一奖励值、所述第二奖励值、所述第一掩码矩阵、所述第二掩码矩阵及所述第一层数,生成第三掩码矩阵;
[0010]基于所述第三掩码矩阵,返回执行所述获取掩码后的模型的操作,直至获取第一注意力矩阵在所述样本数据下的目标掩码矩阵。
[0011]本公开的另一方面,提供了一种预训练模型中注意力矩阵的更新装置,包括:第一生成模块,用于基于待掩码的第一注意力矩阵在预训练模型中的第一层数,生成第一掩码矩阵及第二掩码矩阵;
[0012]第一获取模块,用于分别基于所述第一掩码矩阵及所述第二掩码矩阵,对所述第一注意力矩阵进行掩码,获取掩码后的第一模型及第二模型;
[0013]第二获取模块,用于将当前任务对应的样本数据分别输入所述第一模型及所述第二模型,以获取所述第一掩码矩阵对应的第一奖励值及所述第二掩码矩阵对应的第二奖励值;
[0014]第二生成模块,用于根据所述第一奖励值、所述第二奖励值、所述第一掩码矩阵、所述第二掩码矩阵及所述第一层数,生成第三掩码矩阵;
[0015]第三获取模块,用于基于所述第三掩码矩阵,返回执行所述获取掩码后的模型的操作,直至获取第一注意力矩阵在所述样本数据下的目标掩码矩阵。
[0016]本公开的另一方面,提供了一种电子设备,包括:
[0017]至少一个处理器;以及
[0018]与所述至少一个处理器通信连接的存储器;其中,
[0019]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的预训练模型中注意力矩阵的更新方法。
[0020]本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的预训练模型中注意力矩阵的更新方法。
[0021]本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述一方面实施例所述的预训练模型中注意力矩阵的更新方法。
[0022]本公开提供的预训练模型中注意力矩阵的更新方法、装置及电子设备,可以先基于待掩码的第一注意力矩阵在预训练模型中的第一层数,生成第一掩码矩阵及第二掩码矩阵,之后分别基于第一掩码矩阵及第二掩码矩阵,对第一注意力矩阵进行掩码,获取掩码后的第一模型及第二模型,并将当前任务对应的样本数据分别输入第一模型及第二模型,以获取第一掩码矩阵对应的第一奖励值及第二掩码矩阵对应的第二奖励值,根据第一奖励值、第二奖励值、第一掩码矩阵、第二掩码矩阵及第一层数,生成第三掩码矩阵,最后基于第三掩码矩阵,返回执行获取掩码后的模型的操作,直至获取第一注意力矩阵在样本数据下的目标掩码矩阵。由此,通过前向推断,可以较为快速的确定出预训练模型中自注意力层对应的目标掩码矩阵,涉及的数据量较少,从而节省了计算资源,同时也节省了确定目标掩码矩阵的时间,提高了效率,为工业化部署提供了条件。
[0023]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0024]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0025]图1为本公开一实施例提供的一种预训练模型中注意力矩阵的更新方法的流程示意图;
[0026]图2为本公开一实施例提供的一种预训练模型中注意力矩阵的更新方法的流程示意图;
[0027]图3为本公开一实施例提供的一种预训练模型中注意力矩阵的更新方法的流程示意图;
[0028]图4为本公开另一实施例提供的一种预训练模型中注意力矩阵的更新装置的结构示意图;
[0029]图5为用来实现本公开实施例的预训练模型中注意力矩阵的更新方法的电子设备的框图。
具体实施方式
[0030]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种
细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0031]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
[0032]自然语言处理是用计算机来处理、理解以及运用人类语言(如中文、英文等),它是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。
[0033]深度学习是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。
[0034]下面参考附图描述本公开实施例的预训练模型中注意力矩阵的更新方法、装置及电子设备。
[0035]本公开实施例的预训练模型中注本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预训练模型中注意力矩阵的更新方法,包括:基于待掩码的第一注意力矩阵在预训练模型中的第一层数,生成第一掩码矩阵及第二掩码矩阵;分别基于所述第一掩码矩阵及所述第二掩码矩阵,对所述第一注意力矩阵进行掩码,获取掩码后的第一模型及第二模型;将当前任务对应的样本数据分别输入所述第一模型及所述第二模型,以获取所述第一掩码矩阵对应的第一奖励值及所述第二掩码矩阵对应的第二奖励值;根据所述第一奖励值、所述第二奖励值、所述第一掩码矩阵、所述第二掩码矩阵及所述第一层数,生成第三掩码矩阵;基于所述第三掩码矩阵,返回执行所述获取掩码后的模型的操作,直至获取第一注意力矩阵在所述样本数据下的目标掩码矩阵。2.如权利要求1所述的方法,其中,所述基于待掩码的第一注意力矩阵在预训练模型中的第一层数,生成第一掩码矩阵及第二掩码矩阵,包括:基于所述第一注意力矩阵在预训练模型中的第一层数及所述预训练模型的结构,确定掩码矩阵的规模;基于所述掩码矩阵的规模,生成所述第一掩码矩阵及所述第二掩码矩阵。3.如权利要求1所述的方法,其中,所述根据所述第一奖励值、所述第二奖励值、所述第一掩码矩阵、所述第二掩码矩阵及所述第一层数,生成第三掩码矩阵,包括:根据所述第二掩码矩阵与所述第一掩码矩阵中各对应元素间的差值,确定掩码矩阵中每个元素对应的第一更新方向;根据所述第二奖励值与所述第一奖励值间的差值,确定所述第一更新方向的奖励值;根据所述第一更新方向的奖励值,从所述第一掩码矩阵及所述第二掩码矩阵中确定出参考掩码矩阵及第二更新方向;基于所述参考掩码矩阵、所述第二更新方向及所述第一层数,生成所述第三掩码矩阵。4.如权利要求1所述的方法,其中,所述基于所述第三掩码矩阵,返回执行所述获取掩码后的模型的操作,直至获取第一注意力矩阵在所述样本数据下的目标掩码矩阵,包括:在第n掩码矩阵对应的第n奖励值与相邻的前L个奖励值间的差值小于第一阈值的情况,确定第n

L掩码矩阵为所述第一注意力矩阵在所述样本数据下的目标掩码矩阵,其中,n为正整数,L为小于n的正整数。5.如权利要求1

4任一所述的方法,其中,在所述基于所述第三掩码矩阵,返回执行所述获取掩码后的模型的操作,直至获取第一注意力矩阵在所述样本数据下的目标掩码矩阵之后,还包括:基于所述目标掩码矩阵,对所述第一注意力矩阵进行掩码,获取掩码后的第一目标模型;将所述当前任务对应的校验数据,输入所述第一目标模型,以获取所述校验数据对应的第一输出结果;在所述第一输出结果与所述校验数据对应的标注结果间的第一匹配度小于第二阈值的情况下,确定所述第一目标模型中待掩码的第二注意力矩阵;基于所述第二注意力矩阵在所述第一目标模型中的第二层数,返回执行上述生成第一
掩码矩阵及第二掩码矩阵的操作,直至确定所述第二注意力矩阵在所述样本数据下的目标掩码矩阵。6.如权利要求5所述的方法,其中,所述确定所述第一目标模型中待掩码的第二注意力矩阵,包括:将所述当前任务对应的校验数据,输入所述预训练模型,以获取所述校验数据对应的第二输出结果;确定所述第二输出结果与所述标注结果间的第二匹配度;根据所述第二匹配度与所述第一匹配度间的差值,确定所述第二注意力矩阵与所述第一注意力矩阵在所述第一目标模型中的相对位置;基于所述相对位置及所述第一层数,确定所述第二注意力矩阵在所述第一目标模型中的第二层数;基于所述第二层数,确定所述第二注意力矩阵。7.如权利要求6所述的方法,其中,所述根据所述第二匹配度与所述第一匹配度间的差值,确定所述第二注意力矩阵与所述第一注意力矩阵在所述第一目标模型中的相对位置,包括:在所述第二匹配度与所述第一匹配度间的差值大于或等于第三阈值的情况下,确定所述第一注意力矩阵与所述第二注意力矩阵在所述第一目标模型中相邻;或者,在所述第二匹配度与所述第一匹配度间的差值小于所述第三阈值的情况下,确定所述第二注意力矩阵与所述第一目标模型的输出层之间间隔的层数,与所述第一注意力矩阵与所述第一目标模型的输入层之间间隔的层数相同。8.一种预训练模型中注意力矩阵的更新装置,包括:第一生成模块,用于基于待掩码的第一注意力矩阵在预训练模型中的第一层数,生成第一掩码矩阵及第二掩...

【专利技术属性】
技术研发人员:柴业坤王硕寰孙宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1