文本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：30786329 阅读：13 留言：0更新日期：2021-11-16 07:48

本公开提供了文本处理方法、装置、电子设备及存储介质，涉及深度学习以及自然语言处理等人工智能领域，其中的方法可包括：针对待处理的文本，分别设置采用多头注意力机制的Transformer模型中的各头对应的注意力模式，其中，至少一个头与其它N

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质

[0001]本公开涉及人工智能
，特别涉及深度学习以及自然语言处理等领域的文本处理方法、装置、电子设备及存储介质。

技术介绍

[0002]在实际应用中，可借助于转换器(Transformer)模型实现对于待处理的文本的预定处理，如机器翻译、情感识别等。
[0003]Transformer模型通常采用多头注意力(multi
‑
head
‑
attention)机制，即包括多个注意力模块，时间复杂度很高，而且所述时间复杂度会随着文本长度的增大而增大，文本长度通常是指词例(token)数量。
[0004]为降低时间复杂度，提升文本处理效率，可采用计算稀疏化方法，如稀疏自注意力(Longformer)方法，但这种方法中每个头(head)都采用相同的注意力模式(attention pattern)，从而影响了模型性能，降低了文本处理效果等。

技术实现思路

[0005]本公开提供了文本处理方法、装置、电子设备及存储介质。
[0006]一种文本处理方法，包括：
[0007]针对待处理的文本，分别设置采用多头注意力机制的转换器Transformer模型中的各头对应的注意力模式，其中，至少一个头与其它N
‑
1个头对应的注意力模式不同，N表示头数，为大于一的正整数；
[0008]利用所述Transformer模型进行文本处理。
[0009]一种文本处理装置，包括：设置模块以及处...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，包括：针对待处理的文本，分别设置采用多头注意力机制的转换器Transformer模型中的各头对应的注意力模式，其中，至少一个头与其它N
‑
1个头对应的注意力模式不同，N表示头数，为大于一的正整数；利用所述Transformer模型进行文本处理。2.根据权利要求1所述的方法，其中，所述注意力模式包括：局部模式和全局模式。3.根据权利要求2所述的方法，其中，所述分别设置采用多头注意力机制的Transformer模型中的各头对应的注意力模式包括：设置各头对应相同的局部模式。4.根据权利要求2或3所述的方法，其中，所述分别设置采用多头注意力机制的Transformer模型中的各头对应的注意力模式包括：设置各头分别对应不同的全局模式，其中，每两个相邻的头对应的全局模式之间的变化规律相同。5.根据权利要求4所述的方法，其中，所述设置各头分别对应不同的全局模式包括：针对第1个头，设置其对应的全局模式；针对第i个头，i的初始取值为2，执行以下第一处理：按照预定调整规律，对第i
‑
1个头对应的全局模式进行调整，将调整后的全局模式作为第i个头对应的全局模式；若确定i等于N，则结束处理，否则，令i＝i+1，并针对第i个头，重复执行所述第一处理。6.一种文本处理装置，包括：设置模块以及处理模块；所述设置模块，用于针对待处理的文本，分别设置采用多头注意力机制的转换器Transformer模型中的各头对应的注意力模式，其中，至少一个头与其它N
‑
1个头对应...

【专利技术属性】
技术研发人员：刘佳祥，冯仕堃，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人