深度学习模型存储一致性方法、计算子系统以及计算平台技术方案

技术编号：41059969 阅读：9 留言：0更新日期：2024-04-24 11:11

本申请属于数据处理领域，尤其涉及一种深度学习模型存储一致性方法、计算子系统以及计算平台，该方法包括：第一分布式节点创建待更新的提议信息；采用动态参数分发模型，获取与提议信息匹配的提议分发信息；将提议信息发送给第二分布式节点，以使第二分布式节点判断是否响应提议信息；接收第二分布式节点的提议响应信息；若发出提议响应信息的数量达到动态门限，则触发计算子系统中的所有分布式节点更新待更新数据，以使待更新数据在计算子系统中保持存储数据的一致性。该方法能够解决深度学习模型在分布训练过程中的数据一致性问题，以确保训练过程的有效性和准确性，降低训练过程中的系统复杂性和通信开销。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于数据处理领域，尤其涉及一种深度学习模型存储一致性方法、计算子系统以及计算平台。

技术介绍

1、目前，为提升各个产业、各个领域的智能化应用普及程度，亟待构建一种智能化计算平台，用以辅助智能超算中心的建设，为科研、产业、城市服务提供人工智能平台的构建基础，进一步通过智能化计算平台实现人才聚集、产业升级、发展。

2、深度学习是机器学习的一个分支，它利用多层的人工神经网络来模拟人类的学习过程。深度学习模型通常需要大量的数据进行训练，因此，分布式训练成为了一种有效的解决方案。分布式训练可以将训练任务分配到多个计算节点上并行执行，从而大大提高训练效率。

3、然而，相关技术中，为解决分布式系统中数据不一致问题，提出了一致性存储技术。这种技术通过在多个计算节点之间复制数据，并维护数据的一致性状态，从而保证每个计算节点上的数据都是相同的。现有的一致性存储技术在处理大规模数据时，可能会出现性能瓶颈，影响训练效率。现有技术中，为了解决分布式训练中的数据一致性问题，主要是通过引入协调节点来管理所有计算节点的数据更新。但是，引入协调节点会增加系统的复杂性，同时也会增加通信开销，影响系统的性能。

4、因此，亟待提出一种技术方案，用于解决深度学习模型在分布训练过程中的数据一致性问题，以确保训练过程的有效性和准确性，降低训练过程中的系统复杂性和通信开销。

技术实现思路

1、本申请提供了一种深度学习模型存储一致性方法、计算子系统以及计算平台，用以保证深度学习模型在分布训

2、第一方面，本申请提供了一种深度学习模型存储一致性方法，应用于深度学习模型的计算子系统中，所述计算子系统至少包括多个分布式节点；该方法包括：

3、第一分布式节点创建待更新的提议信息；所述提议信息至少包括：深度学习模型中待更新数据，所述待更新数据包括模型参数和/或训练数据；

4、采用动态参数分发模型，获取与所述提议信息匹配的提议分发信息；其中，所述提议分发信息包括：用于选举所述提议信息的第二分布式节点、以及对应的动态门限，所述动态门限为所述计算子系统响应所述提议信息所需的最小节点数量，所述动态门限是所述动态参数分发模型根据所述提议信息和所述计算子系统动态计算得到的；

5、将所述提议信息发送给所述第二分布式节点，以使所述第二分布式节点判断是否响应所述提议信息；

6、接收所述第二分布式节点的提议响应信息；

7、若发出所述提议响应信息的数量达到所述动态门限，则触发所述计算子系统中的所有分布式节点更新所述待更新数据，以使所述待更新数据在所述计算子系统中保持存储数据的一致性。

8、第二方面，本申请实施例提供了一种计算子系统，应用于深度学习模型的计算子系统中，所述计算子系统至少包括多个分布式节点；所述计算子系统中的第一分布式节点至少包括以下单元：

9、获取单元，被配置为创建待更新的提议信息；所述提议信息至少包括：深度学习模型中待更新数据，所述待更新数据包括模型参数和/或训练数据；采用动态参数分发模型，获取与所述提议信息匹配的提议分发信息；其中，所述提议分发信息包括：用于选举所述提议信息的第二分布式节点、以及对应的动态门限，所述动态门限为所述计算子系统响应所述提议信息所需的最小节点数量，所述动态门限是所述动态参数分发模型根据所述提议信息和所述计算子系统动态计算得到的；

10、分发单元，被配置为将所述提议信息发送给所述第二分布式节点，以使所述第二分布式节点判断是否响应所述提议信息；

11、统计单元，被配置为接收所述第二分布式节点的提议响应信息；若发出所述提议响应信息的数量达到所述动态门限，则触发所述计算子系统中的所有分布式节点更新所述待更新数据，以使所述待更新数据在所述计算子系统中保持存储数据的一致性。

12、第三方面，本申请实施例提供了一种计算设备，所述计算设备包括：

13、至少一个处理器、存储器和输入输出单元；

14、其中，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中存储的计算机程序来执行第一方面的深度学习模型存储一致性方法。

15、第四方面，提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行该指令时，使得计算机执行第一方面的深度学习模型存储一致性方法。

16、本申请实施例提供的技术方案中，该方案可以应用于深度学习模型的计算子系统中，计算子系统至少包括多个分布式节点。首先，第一分布式节点创建待更新的提议信息。该提议信息至少包括：深度学习模型中待更新数据，待更新数据包括模型参数和/或训练数据。其次，采用动态参数分发模型，获取与提议信息匹配的提议分发信息。其中，提议分发信息包括：用于选举提议信息的第二分布式节点、以及对应的动态门限。动态门限为计算子系统响应提议信息所需的最小节点数量。动态门限是动态参数分发模型根据提议信息和计算子系统动态计算得到的。进而，将提议信息发送给第二分布式节点，以使第二分布式节点判断是否响应提议信息。接着，接收第二分布式节点的提议响应信息。最后，若发出提议响应信息的数量达到动态门限，则触发计算子系统中的所有分布式节点更新待更新数据，以使待更新数据在计算子系统中保持存储数据的一致性。

17、本申请技术方案中，引入动态参数分发模型以及动态门限机制，使系统更具适应性、可扩展性，并提供了一种有效的方式来保障深度学习模型在分布式环境中的存储一致性。该方案能够解决深度学习模型在分布训练过程中的数据一致性问题，以确保训练过程的有效性和准确性，降低训练过程中的系统复杂性和通信开销。

本文档来自技高网...

【技术保护点】

1.一种深度学习模型存储一致性方法，其特征在于，应用于深度学习模型的计算子系统中，所述计算子系统至少包括多个分布式节点；所述方法包括：

2.根据权利要求1所述的深度学习模型存储一致性方法，其特征在于，所述动态参数分发模型至少包括：当前状态监测层、决策引擎、动态门限计算层、参数调整层；

3.根据权利要求2所述的深度学习模型存储一致性方法，其特征在于，所述动态参数分发模型还包括：历史数据分析层；

4.根据权利要求2所述的深度学习模型存储一致性方法，其特征在于，所述选取与所述提议信息以及所述节点连接结构所匹配的提议响应决策策略，包括：

5.根据权利要求4所述的深度学习模型存储一致性方法，其特征在于，多种提议响应决策策略至少包括：节点负载均衡策略；

6.根据权利要求4所述的深度学习模型存储一致性方法，其特征在于，多种提议响应决策策略至少包括：网络通信延迟策略；

7.根据权利要求4所述的深度学习模型存储一致性方法，其特征在于，多种提议响应决策策略至少包括：节点可靠性策略；

8.根据权利要求1所述的深度学习模

9.一种计算子系统，其特征在于，应用于深度学习模型的计算子系统中，所述计算子系统至少包括多个分布式节点；所述计算子系统中的第一分布式节点至少包括以下单元：

10.一种智能计算平台，其特征在于，所述智能计算平台包括：

...

【技术特征摘要】

1.一种深度学习模型存储一致性方法，其特征在于，应用于深度学习模型的计算子系统中，所述计算子系统至少包括多个分布式节点；所述方法包括：

3.根据权利要求2所述的深度学习模型存储一致性方法，其特征在于，所述动态参数分发模型还包括：历史数据分析层；

5.根据权利要求4所述的深度学习模型存储一致性方法，其特征在于，多种提议响应决策策略至少...

【专利技术属性】
技术研发人员：邓练兵，巩志国，官全龙，王岩，
申请(专利权)人：广东琴智科技研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人