文本处理模型的生成方法、装置、设备、介质和程序产品制造方法及图纸

技术编号：34462001 阅读：31 留言：0更新日期：2022-08-06 17:27

本公开涉及一种文本处理模型的生成方法、装置、设备、介质和程序产品。所述方法包括：获得多个候选文本处理模型，其中，所述多个候选文本处理模型分别包括至少两种类型的注意力层；获得所述候选文本处理模型的性能信息；基于所述多个候选文本处理模型的性能信息，从所述多个候选文本处理模型中确定目标文本处理模型。模型。模型。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理模型的生成方法、装置、设备、介质和程序产品

[0001]本公开涉及计算机
，尤其涉及一种文本处理模型的生成方法、装置、电子设备、存储介质和程序产品。

技术介绍

[0002]Transformer在自然语言处理和计算机视觉领域有着广泛的运用，并且取得了较好的准确率。基于Softmax的注意力层(Softmax attention)是Transformer结构中的重要组成部分之一，其用于编码所有位置特征之间的关系，并且可以对更相关的特征赋予更大的权重。然而，基于Softmax的注意力层对序列长度有着二次的计算复杂度，因此计算速度较慢，计算效率较低。线性注意力层(Linear attention)能够将二次复杂度降为一次，从而提升计算速度和计算效率。然而，线性注意力层的整体准确率不如基于Softmax的注意力层。综上可知，基于Softmax的注意力层和线性注意力层都面临准确率和效率不平衡的问题，即一方好，另一方就不好。

技术实现思路

[0003]本公开提供了一种文本处理模型的生成技术方案。
[...

【技术保护点】

【技术特征摘要】
1.一种文本处理模型的生成方法，其特征在于，包括：获得多个候选文本处理模型，其中，所述多个候选文本处理模型分别包括至少两种类型的注意力层；获得所述候选文本处理模型的性能信息；基于所述多个候选文本处理模型的性能信息，从所述多个候选文本处理模型中确定目标文本处理模型。2.根据权利要求1所述的方法，其特征在于，所述至少两种类型的注意力层包括：基于Softmax的注意力层和线性注意力层。3.根据权利要求1或2所述的方法，其特征在于，所述获得多个候选文本处理模型，包括：构建用于搜索候选文本处理模型的搜索空间，其中，所述搜索空间包括注意力层的类型对应的子搜索空间，且所述注意力层的类型对应的子搜索空间包括至少两种类型的注意力层；基于所述搜索空间，搜索出多个候选文本处理模型。4.根据权利要求3所述的方法，其特征在于，所述注意力层的类型对应的子搜索空间用于搜索候选文本处理模型的编码器中的自注意力层对应的类型。5.根据权利要求1至4中任意一项所述的方法，其特征在于，在所述从所述多个候选文本处理模型中确定目标文本处理模型之后，所述方法还包括：采用训练文本集，对所述目标文本处理模型进行重新训练。6.一种图像处理模型的生成方法，其特征在于，包括：获得多个候选图像处理模型，其中，所述多个候选图像处理模型分别包括至少两种类型的注意力层；获得所述候选图像处理模型的性能信息；基于所述多个候选图像处理模型的性能信息，从所述多个候选图像处理模型中确定目标图像处理模型。7.根据权利要求6所述的方法，其特征在于，所述至少两种类型的注意力层包括：基于Softmax的注意力层和线性注意力层。8.根据权利要求6或7所述的方法，其特征在于，所述获得多个候选图像处理模型，包括：构建用于搜索候选图像处理模型的搜索空间，其中，所述搜索空间包括注意力层的类型对应的子搜索空间，且所述注意力层的类型对应的子搜索空间包括至少两种类型的注意力层；基于所述搜索空间，搜索出多个候选图像处理模型。9.根据权利要求8所述的方法，其特征在于，所述注意力层的类型对应的子搜索空间用于搜索候选图像处理模型的编码器中的自注意力层对应的类型。10.根据权利要求6至9中任意一项所述的方法，其特征在于，在所述从所述多个候选图像处理模型中确定目标图像处理模型之后，所述方法还包括：采用训练图像集，对所述目标图像处理模型进行重新训练。11.一种语音处理模型的生成方法，其特征在于，包括：
获得多个候选语音处理模型，其中，所述多个候选语音处理模型分别包括至少两种类型的注意力层；获得所述候选语音处理模型的性能信息；基于所述...

【专利技术属性】
技术研发人员：钟怡然，卢凯悦，刘泽祥，李冬，秦臻，孙伟轩，
申请(专利权)人：上海商汤智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人