一种神经网络模型的推理方法、装置及相关设备制造方法及图纸

技术编号：41007972 阅读：2 留言：0更新日期：2024-04-18 21:43

本申请公开了一种神经网络模型的推理方法，该方法应用于计算集群，计算集群包括多个推理服务器及内存池，每个推理服务器包括至少一个推理卡及本地内存，该方法包括：计算集群中的第一推理服务器的第一推理卡接收推理任务；第一推理卡若在第一推理卡未命中执行推理任务的参数，则从第一服务器的本地内存中获取参数；若在第一服务器的本地内存中未命中参数，则从内存池中获取参数。第一推理卡能够基于获取的所有参数执行推理任务。基于第一推理服务器的本地内存的高速读写能力，能够提高第一推理卡获取参数的速度，从而降低第一推理卡获取参数的时延，满足执行推理任务的低时延的要求。此外，本申请还提供了对应的装置、计算集群及存储介质。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，特别是涉及一种神经网络模型的推理方法、装置及相关设备。

技术介绍

1、部分神经网络模型在训练或者推理的过程中，将输入数据处理为离散特征，再利用模型参数对离散特征进行转换，得到连续特征，再利用得到的连续特征进行后续处理。此类神经网络模型在一次训练或者一次推理的过程中，仅会使用到部分模型参数。在一次训练或者一次推理中仅有部分使用的模型参数也称为稀疏参数。

2、目前，由计算集群执行神经网络模型的推理任务。神经网络模型的部分稀疏参数存储在基于计算集群包括的服务器建立的分布式数据库中。利用分布式数据库提供的查询服务查询稀疏参数的时延较高，难以满足获取稀疏参数执行推理任务的需要。

技术实现思路

1、本申请提供了一种神经网络模型的推理方法，第一推理服务器的第一推理卡在未在第一推理卡中命中执行推理任务的参数后，能够在第一推理服务器的本地内存查询参数，基于第一推理服务器的本地内存的高速读写能力能够提高获取参数的速度，降低获取参数的时延，从而满足执行推理任务的需要。本申请还提供了对应的装置、计算设备集群、计算机可读存储介质以及计算机程序产品。

2、第一方面，本申请提供了一种神经网络模型的推理方法，该方法能够应用于计算集群。计算集群包括多个推理服务器以及内存池。每个推理服务器包括推理卡及本地内存。在获取针对神经网络模型的推理任务后，计算集群中的第一推理服务器的第一推理卡接收推理任务。执行推理任务需要参数。第一推理卡、第一推理服务器的本地内存以及内存池中均预先存

3、在一些可能的实现方式中，内存池存储神经网络模型的全量参数。如此，在第一推理卡无法从第一推理卡和第一推理服务器的本地内存中获取参数时，第一推理卡能够从内存池获取执行推理任务所需的参数，以便第一推理卡能够获取所有的参数执行推理任务。

4、在一些可能的实现方式中，第一推理服务器的本地内存为共享内存。第一推理服务器的本地内存能够为第一推理服务器包括的至少一个推理卡提供同时访问的服务。如此，第一推理服务器包括的至少一个推理卡，能够同时访问第一推理服务器的本地内存，提高第一推理服务器包括的推理卡获取数据的效率。

5、在一些可能的实现方式中，第一推理服务器的本地内存使用哈希表对本地内存的参数进行管理。哈希表中记录参数的索引的哈希值以及对应的参数。第一推理卡能够根据所要获取的执行推理任务所需的参数的索引的哈希值，确定参数的索引的哈希值是否存在在哈希表中。如果哈希表中存在参数的索引的哈希值，则说明本地内存存储该参数，第一推理卡能够在本地内存中命中。第一推理卡从第一推理服务器的本地内存中获取哈希值对应的参数，也就是执行推理任务所需的参数。

6、在一些可能的实现方式中，用于管理第一推理服务器的本地内存的参数的哈希表还包括参数的状态信息。参数的状态信息用于标识参数所处的状态，具体包括读状态或者写状态。当参数的状态信息指示该参数处于写状态时，其他访问该参数的推理卡不能对该参数进行更新。如此，基于参数的状态信息，能够实现对参数的无锁高速读写，实现对参数的高并发查询，提高第一推理服务器的推理卡从第一推理服务器的本地内存中获取参数的效率。

7、第二方面，本申请提供一种神经网络模型的推理装置。该推理装置应用于计算集群包括的第一推理服务器的第一推理卡。其中，计算集群包括多个推理服务器及内存池，每个推理服务器包括至少一个推理卡及本地内存。该推理装置包括接收模块，用于接收推理任务；查询模块，用于在第一推理卡中未命中执行推理任务的参数后，从第一推理服务器的本地内存中获取参数；查询模块，还用于在本地内存中未命中参数时，则从内存池中获取参数；执行模块，用于在获取执行推理任务的所有参数后，执行推理任务。

8、在一些可能的实现方式中，内存池中存储神经网络模型的全量参数，以便能够从内存池中获取所有的参数执行推理任务

9、在一些可能的实现方式中，本地内存为至少一个推理卡可以同时访问的共享内存。

10、在一些可能的实现方式中，本地内存通过哈希表管理本地内存中的参数，哈希表中记录了参数的索引的哈希值及对应的参数；查询模块，用于从第一推理服务器的本地内存中获取参数，包括：查询模块，用于根据参数的索引的哈希值确定参数的索引的哈希值是否存在哈希表中，如果存在，则在本地内存中命中，并获取哈希值对应的参数。

11、在一些可能的实现方式中，哈希表还包括参数的状态信息，状态信息用于标识参数为读状态还是写状态，当参数为写状态时，则不能对参数进行更新。

12、第三方面，本申请提供一种计算设备集群，所述计算设备包括至少一个计算设备，所述至少一个计算设备包括至少一个处理器和至少一个存储器；所述至少一个存储器用于存储指令，所述至少一个处理器执行所述至少一个存储器存储的该指令，以使所述计算设备集群执行上述第一方面或第一方面任一种可能实现方式中的神经网络模型的推理方法。需要说明的是，该存储器可以集成于处理器中，也可以是独立于处理器之外。所述至少一个计算设备还可以包括总线。其中，处理器通过总线连接存储器。其中，存储器可以包括可读存储器以及随机存取存储器。

13、第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在至少一个计算设备上运行时，使得所述至少一个计算设备执行上述任一方面或任一方面的任一种实现方式所述的方法。

14、第五方面，本申请提供了一种包含指令的计算机程序产品，当其在至少一个计算设备上运行时，使得所述至少一个计算设备执行上述任一方面或任一方面的任一种实现方式所述的方法。

15、本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

本文档来自技高网...

【技术保护点】

1.一种神经网络模型的推理方法，应用于计算集群，所述计算集群包括多个推理服务器及内存池，每个推理服务器包括至少一个推理卡及本地内存，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述内存池中存储所述神经网络模型的全量参数。

3.根据权利要求1或2所述的方法，其特征在于，所述本地内存为所述至少一个推理卡可以同时访问的共享内存。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述本地内存通过哈希表管理所述本地内存中的参数，所述哈希表中记录参数的索引的哈希值及对应的参数；

5.根据权利要求4所述的方法，其特征在于，所述哈希表里还包括所述参数的状态信息，所述状态信息用于标识所述参数为读状态还是写状态，当所述参数为写状态时，则不能对所述参数进行更新。

6.一种神经网络模型的推理装置，应用于计算集群包括的第一推理服务器的第一推理卡，所述计算集群包括多个推理服务器及内存池，每个推理服务器包括至少一个推理卡及本地内存，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述内存池中存

8.根据权利要求6或7所述的装置，其特征在于，所述本地内存为所述至少一个推理卡可以同时访问的共享内存。

9.根据权利要求6至8任意一项所述的装置，其特征在于，所述本地内存通过哈希表管理所述本地内存中的参数，所述哈希表中记录了参数的索引的哈希值及对应的参数；

10.根据权利要求9所述的装置，其特征在于，所述哈希表里还包括所述参数的状态信息，所述状态信息用于标识所述参数为读状态还是写状态，当所述参数为写状态时，则不能对所述参数进行更新。

11.一种计算设备集群，其特征在于，所述计算设备集群包括至少一个计算设备，每个计算设备包括处理器以及存储器：

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算设备上运行时，使得所述计算设备执行如权利要求1至5任一项所述的方法。

13.一种包含指令的计算机代码产品，当其在计算设备上运行时，使得所述计算设备执行如权利要求1至5任一项所述的方法。

...

【技术特征摘要】

2.根据权利要求1所述的方法，其特征在于，所述内存池中存储所述神经网络模型的全量参数。

3.根据权利要求1或2所述的方法，其特征在于，所述本地内存为所述至少一个推理卡可以同时访问的共享内存。

7.根据权利要求6所述...

【专利技术属性】
技术研发人员：王国威，徐华，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人