数据处理方法、数据处理模型及其训练方法技术

技术编号：40747007 阅读：5 留言：0更新日期：2024-03-25 20:04

本公开提供了一种数据处理方法、数据处理模型及其训练方法，涉及人工智能领域，具体涉及自然语言处理、深度学习技术、大模型技术。实现方案为：确定输入数据，所述输入数据包括多个分词；根据门控矩阵确定所述多个分词中每个分词与多个专家网络中的每个专家网络之间的相关性，其中所述多个专家网络用于对所述多个分词进行强化；根据所述相关性以及每个专家网络的预设容量将所述多个分词以均匀的方式分配给所述多个专家网络，以对所述多个分词进行强化；根据经强化的所述多个分词确定数据处理结果。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能领域，具体涉及自然语言处理、深度学习技术、大模型技术，具体涉及一种数据处理方法、数据处理模型及其训练方法、数据处理装置、训练装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

1、人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

2、预训练语言模型是近年来自然语言处理领域发展比较迅速的技术。在大模型技术中，通过增大预训练模型规模，一般来说可以使得模型取得更好的效果。

3、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

1、本公开提供了一种数据处理方法、数据处理模型及其训练方法、数据处理装置、训练装置、电子设备、计算机可读存储介质和计算机程序产品。

2、根据本公开的一方面，提供了一种数据处理方法，包括：确定输入数据，所述输入数据包括多个分词；根据门控矩阵确定所述多个分词中每个分词与多个专家网络中的每个专家网络之间的相关性，其中所述多

3、根据本公开的另一方面，提供了一种数据处理模型，包括：路由层，被配置成根据门控矩阵确定输入数据中的多个分词中每个分词与多个专家网络中的每个专家网络之间的相关性，其中所述相关性用于结合每个专家网络的预设容量将所述多个分词以均匀的方式分配给所述多个专家网络；包括多个专家网络的专家网络层，所述专家网络被配置成对所分配的分词进行强化；输出层，被配置成根据经强化的所述多个分词确定数据处理结果。

4、根据本公开的另一方面，提供了一种用于对数据处理模型进行训练的方法，包括：确定样本输入，所述样本输入包括多个分词；根据门控矩阵确定所述多个分词中每个分词与多个专家网络中的每个专家网络之间的相关性，其中所述多个专家网络用于对所述多个分词进行强化，所述相关性用于结合每个专家网络的预设容量将所述多个分词以均匀的方式分配给所述多个专家网络；基于所述门控矩阵确定损失值，其中所述门控矩阵越接近于正交矩阵，所述损失值越小；基于所述损失值调整所述门控矩阵的参数，以得到训练后的数据处理模型。

5、根据本公开的另一方面，提供了一种数据处理装置，包括：输入单元，被配置成确定输入数据，所述输入数据包括多个分词；相关性确定单元，被配置成根据门控矩阵确定所述多个分词中每个分词与多个专家网络中的每个专家网络之间的相关性，其中所述多个专家网络用于对所述多个分词进行强化；分配单元，被配置成根据所述相关性以及每个专家网络的预设容量将所述多个分词以均匀的方式分配给所述多个专家网络，以对所述多个分词进行强化；输出单元，被配置成根据经强化的所述多个分词确定数据处理结果。

6、根据本公开的另一方面，提供了一种对数据处理模型进行训练的装置，包括：输入单元，被配置成确定样本输入，所述样本输入包括多个分词；相关性确定单元，被配置成根据门控矩阵确定所述多个分词中每个分词与多个专家网络中的每个专家网络之间的相关性，其中所述多个专家网络用于对所述多个分词进行强化，所述相关性用于结合每个专家网络的预设容量将所述多个分词以均匀的方式分配给所述多个专家网络；损失确定单元，被配置成基于所述门控矩阵确定损失值，其中所述门控矩阵越接近于正交矩阵，所述损失值越小；参数调整单元，被配置成基于所述损失值调整所述门控矩阵的参数，以得到训练后的数据处理模型。

7、根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开提供的方法。

8、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开提供的方法。

9、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现本公开提供的方法。

10、根据本公开的一个或多个实施例，可以在为多个专家网络进行数据处理任务的分配时在考虑最优分配的同时还满足均匀分配的约束，从而使得每个专家网络都能够在数据处理过程中发挥功能，提高数据处理效率。

11、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种数据处理方法，包括：

2.如权利要求1所述的数据处理方法，其中，根据门控矩阵确定所述多个分词中每个分词与多个专家网络中的每个专家网络之间的相关性包括：

3.如权利要求1所述的数据处理方法，其中，根据所述相关性以及每个专家网络的预设容量将所述多个分词以均匀的方式分配给所述多个专家网络包括：

4.如权利要求3所述的数据处理方法，其中，所述每个专家网络的预设容量是相同的。

5.如权利要求3所述的数据处理方法，其中，根据所述相关性和所述每个专家网络的剩余容量确定第二分配方案包括：

6.如权利要求5所述的数据处理方法，其中，所述最优输运算法是sinkhorn算法。

7.如权利要求1所述的数据处理方法，其中，根据经强化的所述多个分词确定数据处理结果包括：

8.一种数据处理模型，包括：

9.如权利要求8所述的数据处理模型，其中，根据门控矩阵确定所述多个分词中每个分词与多个专家网络中的每个专家网络之间的相关性包括：

10.如权利要求8所述的数据处理模型，其中，将所述多个分词以均匀的

11.如权利要求10所述的数据处理模型，其中，所述每个专家网络的预设容量是相同的。

12.如权利要求10所述的数据处理模型，其中，根据所述相关性和所述每个专家网络的剩余容量确定第二分配方案包括：

13.如权利要求12所述的数据处理模型，其中，所述最优输运算法是sinkhorn算法。

14.如权利要求8所述的数据处理模型，其中，所述输出层被配置成：

15.一种用于对如权利要求1至14中任一项所述的数据处理模型进行训练的方法，包括：

16.如权利要求15所述的方法，其中，基于所述门控矩阵确定损失值包括：

17.如权利要求16所述的方法，其中，所述误差是最小均方误差。

18.一种数据处理装置，包括：

19.如权利要求18所述的数据处理装置，其中，所述相关性确定单元被配置成包括：

20.如权利要求18所述的数据处理装置，其中，根据所述相关性以及每个专家网络的预设容量将所述多个分词以均匀的方式分配给所述多个专家网络包括：

21.如权利要求20所述的数据处理装置，其中，所述每个专家网络的预设容量是相同的。

22.如权利要求20所述的数据处理装置，其中，根据所述相关性和所述每个专家网络的剩余容量确定第二分配方案包括：

23.如权利要求22所述的数据处理装置，其中，所述最优输运算法是sinkhorn算法。

24.如权利要求18所述的数据处理装置，其中，根据经强化的所述多个分词确定数据处理结果包括：

25.一种用于对如权利要求1至14中任一项所述的数据处理模型进行训练的装置，包括：

26.如权利要求25所述的装置，其中，所述损失确定单元被配置成：

27.如权利要求26所述的装置，其中，所述误差是最小均方误差。

28.一种电子设备，包括：

29.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7,15-17中任一项所述的方法。

30.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-7,15-17中任一项所述的方法。

...

【技术特征摘要】