文本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30786329 阅读:13 留言:0更新日期:2021-11-16 07:48
本公开提供了文本处理方法、装置、电子设备及存储介质,涉及深度学习以及自然语言处理等人工智能领域,其中的方法可包括:针对待处理的文本,分别设置采用多头注意力机制的Transformer模型中的各头对应的注意力模式,其中,至少一个头与其它N

【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,特别涉及深度学习以及自然语言处理等领域的文本处理方法、装置、电子设备及存储介质。

技术介绍

[0002]在实际应用中,可借助于转换器(Transformer)模型实现对于待处理的文本的预定处理,如机器翻译、情感识别等。
[0003]Transformer模型通常采用多头注意力(multi

head

attention)机制,即包括多个注意力模块,时间复杂度很高,而且所述时间复杂度会随着文本长度的增大而增大,文本长度通常是指词例(token)数量。
[0004]为降低时间复杂度,提升文本处理效率,可采用计算稀疏化方法,如稀疏自注意力(Longformer)方法,但这种方法中每个头(head)都采用相同的注意力模式(attention pattern),从而影响了模型性能,降低了文本处理效果等。

技术实现思路

[0005]本公开提供了文本处理方法、装置、电子设备及存储介质。
[0006]一种文本处理方法,包括:
[0007]针对待处理的文本,分别设置采用多头注意力机制的转换器Transformer模型中的各头对应的注意力模式,其中,至少一个头与其它N

1个头对应的注意力模式不同,N表示头数,为大于一的正整数;
[0008]利用所述Transformer模型进行文本处理。
[0009]一种文本处理装置,包括:设置模块以及处理模块;
[0010]所述设置模块,用于针对待处理的文本,分别设置采用多头注意力机制的转换器Transformer模型中的各头对应的注意力模式,其中,至少一个头与其它N

1个头对应的注意力模式不同,N表示头数,为大于一的正整数;
[0011]所述处理模块,用于利用所述Transformer模型进行文本处理。
[0012]一种电子设备,包括:
[0013]至少一个处理器;以及
[0014]与所述至少一个处理器通信连接的存储器;其中,
[0015]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
[0016]一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如以上所述的方法。
[0017]一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如以上所述的方法。
[0018]上述公开中的一个实施例具有如下优点或有益效果:各个头不再采用相同的注意
力模式,而是不同的头可对应不同的注意力模式,从而增大了token之间的连通性,进而提升了模型性能,并相应地提升了文本处理效果等。
[0019]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0021]图1为本公开所述文本处理方法实施例的流程图;
[0022]图2为本公开所述设置各头分别对应的全局模式的方法实施例的流程图;
[0023]图3为本公开所述不同头对应的注意力模式示意图;
[0024]图4为本公开所述文本处理装置实施例400的组成结构示意图;
[0025]图5示出了可以用来实施本公开的实施例的电子设备500的示意性框图。
具体实施方式
[0026]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0027]另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0028]图1为本公开所述文本处理方法实施例的流程图。如图1所示,包括以下具体实现。
[0029]在步骤101中,针对待处理的文本,分别设置采用多头注意力机制的Transformer模型中的各头对应的注意力模式,其中,至少一个头与其它N

1个头对应的注意力模式不同,N表示头数,为大于一的正整数。
[0030]在步骤102中,利用所述Transformer模型进行文本处理。
[0031]可以看出,上述方法实施例所述方案中,各个头不再采用相同的注意力模式,而是不同的头可对应不同的注意力模式,从而增大了token之间的连通性,进而提升了模型性能,并相应地提升了文本处理效果等。
[0032]N的具体取值可根据实际需要而定,针对N个头,可分别设置对应的注意力模式,其中,至少一个头与其它N

1个头对应的注意力模式不同。也就是说,对于N个头对应的共N个注意力模式,其中至少包括两种不同的注意力模式。
[0033]本公开的一个实施例中,所述注意力模式可包括:局部模式(local pattern)和全局模式(global pattern),即注意力模式可由局部模式和全局模式组成。其中,局部模式也可称为局部注意力(local attention),全局模式也可称为全局注意力(global attention)。
[0034]本公开的一个实施例中,可设置各头对应相同的局部模式。即可为各头设置统一的局部模式,这样,对于任意的两个头,只需通过设置不同的全局模式,即可达到设置不同的注意力模式的效果,从而简化了设置过程,提升了处理效率等。
[0035]本公开的一个实施例中,可设置各头分别对应不同的全局模式,其中,每两个相邻的头对应的全局模式之间的变化规律可相同。
[0036]比如,N的取值为4,那么针对第1个头、第2个头、第3个头和第4个头,可分别设置不同的全局模式,即可设置任意两个头对应的全局模式均不相同。
[0037]通过上述处理,可进一步增大token之间的连通性,从而进一步提升了模型性能及提升了文本处理效果等。
[0038]本公开的一个实施例中,设置各头分别对应不同的全局模式的具体实现方式可如图2所示。
[0039]图2为本公开所述设置各头分别对应的全局模式的方法实施例的流程图。如图2所示,具体包括以下实现方式。
[0040]在步骤201中,针对第1个头,设置其对应的全局模式。
[0041]所述全局模式的具体形式不作限制。
[0042]在步骤202中,针对第i个头,按照预定调整规律,对第i
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:针对待处理的文本,分别设置采用多头注意力机制的转换器Transformer模型中的各头对应的注意力模式,其中,至少一个头与其它N

1个头对应的注意力模式不同,N表示头数,为大于一的正整数;利用所述Transformer模型进行文本处理。2.根据权利要求1所述的方法,其中,所述注意力模式包括:局部模式和全局模式。3.根据权利要求2所述的方法,其中,所述分别设置采用多头注意力机制的Transformer模型中的各头对应的注意力模式包括:设置各头对应相同的局部模式。4.根据权利要求2或3所述的方法,其中,所述分别设置采用多头注意力机制的Transformer模型中的各头对应的注意力模式包括:设置各头分别对应不同的全局模式,其中,每两个相邻的头对应的全局模式之间的变化规律相同。5.根据权利要求4所述的方法,其中,所述设置各头分别对应不同的全局模式包括:针对第1个头,设置其对应的全局模式;针对第i个头,i的初始取值为2,执行以下第一处理:按照预定调整规律,对第i

1个头对应的全局模式进行调整,将调整后的全局模式作为第i个头对应的全局模式;若确定i等于N,则结束处理,否则,令i=i+1,并针对第i个头,重复执行所述第一处理。6.一种文本处理装置,包括:设置模块以及处理模块;所述设置模块,用于针对待处理的文本,分别设置采用多头注意力机制的转换器Transformer模型中的各头对应的注意力模式,其中,至少一个头与其它N

1个头对应...

【专利技术属性】
技术研发人员:刘佳祥冯仕堃
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1