System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算,尤其涉及一种数据聚合方法及装置。
技术介绍
1、模型训练指的是,给计算系统提供大量的训练数据,以使得计算系统确定出一个合适的神经网络架构,以及确定出神经网络架构中每个参数的赋值,即得到训练好的模型。如此,神经网络架构可用于较为准确地识别或区分对象。
2、在实际应用中,可将多个计算设备组成计算系统,以用于训练模型,其中,计算设备比如是图形处理器(graphics processing unit,gpu)、神经网络加速器(neural-network processing unit,npu)、数据处理器(data processing unit,dpu)、张量处理器(tensor processing unit,tpu)等。该多个计算设备可分别输入不同的训练数据,或者,该大量计算设备还可用于训练该模型的不同子模型。该大量计算设备可在每次迭代之后得到各自的中间数据,将各自中间数据进行传递,从而得到本轮迭代中所有中间数据的聚合结果,随后各计算设备将聚合结果作为下一次迭代的输入。如此,经过多轮迭代运算之后,该多个计算设备就能习得更多关键的特征细节,从而显得更加智能。
3、在模型训练过程中,计算设备生成的中间数据通常是多维的。如图1示例性示出的计算设备a生成的中间数据共有两个维度,其中,第1个维度上数据的个数是3,第2个维度上数据的个数是2,即总共有6个数据。由于每个计算设备在将各自的中间数据存储于内存时的排列方式的限制,该多个计算设备在进行数据聚合时,只能按照符合内存的排列方式的预设维度来聚合,而无
技术实现思路
1、本申请提供一种数据聚合方法及装置,用于在模型训练中实现多个计算设备按照用户指定的维度对中间数据进行聚合,提高数据聚合方式的灵活性。
2、第一方面,本申请提供一种数据聚合方法,方法应用于计算系统中,计算系统包括r个计算设备,每个计算设备包括m个数据,m个数据以多个维度表示,且每个计算设备具有编号,其中,r和m均为大于1的整数;方法包括:r个计算设备中的第一计算设备确定对数据的聚合维度,聚合维度为m个数据的多个维度中的其中一个维度;第一计算设备分别获取每个计算设备的m个数据;第一计算设备对每个计算设备的m个数据以聚合维度按照每个计算设备的编号顺序进行聚合。
3、上述技术方案中,第一计算设备确定对数据的聚合维度,进而根据聚合维度按照每个计算设备的编号顺序进行聚合,如此,实现多个计算设备按照用户指定的维度(即聚合维度)对中间数据进行聚合,提高数据聚合方式的灵活性。
4、在一种可能的实现方式中,r个计算设备环形(ring)连接,并通过信息传递接口(message passing interface,mpi)全部收集(allgather)操作进行聚合通信。在一种可能的实现方式中,第一计算设备分别获取每个计算设备的m个数据,包括:第一计算设备通过r个计算设备中的第二计算设备获取除第一计算设备外其他计算设备的m个数据;其中,第二计算设备是环形连接中第一计算设备的前一个计算设备。
5、在一种可能的实现方式中,第一计算设备获取其中一个计算设备的m个数据,包括:第二计算设备根据聚合维度确定将m个数据发送给第一计算设备过程中每次发送的数据个数;第二计算设备根据每次发送的数据个数,将m个数据分多次发送给第一计算设备。
6、上述技术方案中,第二计算设备依次将除第一计算设备以外的一个计算设备的m个数据,分多次发送给第一计算设备,且每次发送的数据个数基于聚合维度确定,从而实现第一计算设备根据接收的数据,直接聚合得到聚合维度对应的聚合结果,而无需再经过拆分操作和重组操作,以加快聚合速度。
7、在一种可能的实现方式中,第二计算设备根据聚合维度确定将m个数据发送给第一计算设备过程中每次发送的数据个数,包括:第二计算设备将m个数据在聚合维度上连续的数据个数,作为每次发送的数据个数。
8、上述技术方案中,第二计算设备将m个数据在聚合维度上连续的数据个数,作为每次发送的数据个数,实现第一计算设备根据接收到的数据直接聚合得到聚合维度对应的聚合结果,而无需再经过拆分操作和重组操作,以加快聚合速度。
9、在一种可能的实现方式中,第一计算设备对每个计算设备的m个数据以聚合维度按照每个计算设备的编号顺序进行聚合,包括:第一计算设备根据聚合维度和每个计算设备的编号,确定每个计算设备的m个数据分别存储于第一计算设备中位置;根据每个计算设备的m个数据分别存储于第一计算设备中位置,聚合每个计算设备的m个数据。
10、上述技术方案中,第一计算设备在接收到每个计算设备的m个数据之后,将每个计算设备的m个数据放置于聚合维度和每个计算设备的编号共同指示的位置上,以得到聚合维度对应的聚合结果,而无需再经过拆分操作和重组操作,加快聚合速度。
11、在一种可能的实现方式中,第一计算设备确定对数据的聚合维度,包括:第一计算设备接收用户参数,从用户参数中获取聚合维度。
12、上述技术方案中,用户能够指定模型训练过程中多个计算设备之间聚合数据时所依据的聚合维度,有助于提高模型训练的灵活性。
13、第二方面,本申请提供一种计算系统,计算系统包括r个计算设备,每个计算设备包括m个数据,m个数据以多个维度表示,且每个计算设备具有编号,其中,r和m均为大于1的整数;r个计算设备中包括第一计算设备;第一计算设备用于:确定对数据的聚合维度,聚合维度为m个数据的多个维度中的其中一个维度;分别获取每个计算设备的m个数据;对每个计算设备的m个数据以聚合维度按照每个计算设备的编号顺序进行聚合。
14、在一种可能的实现方式中,r个计算设备环形连接,并通过mpi allgather操作进行聚合通信。
15、在一种可能的实现方式中,r个计算设备中还包括第二计算设备;第一计算设备在分别获取每个计算设备的m个数据时,具体用于:通过第二计算设备获取除第一计算设备外其他计算设备的m个数据。第二计算设备用于:根据聚合维度确定将m个数据发送给第一计算设备过程中每次发送的数据个数;根据每次发送的数据个数,将m个数据分多次发送给第一计算设备。
16、在一种可能的实现方式中,第二计算设备在根据聚合维度确定将m个数据发送给第一计算设备过程中每次发送的数据个数时,具体用于:将m个数据在聚合维度上连续的数据个数,作为每次发送的数据个数。
17、在一种可能的实现方式中,第一计算设备在对每个计算设备的m个数据以聚合维度按照每个计算设备的编号顺序进行聚合时,具体用于:根据聚合维度和每个计算设备的编号,确定每个计算设备的m个数据分别存储于第一计算设备中位置;根据每个计算设备的m个数据分别存储于第一计算设备中位置,聚合每个计算设备的m个数据。
18、在一种可能的实现方式中,第一计算设备在确定对数据的聚合维度时,具体用于:接收用户参数,从用户参数中获取聚合维度本文档来自技高网...
【技术保护点】
1.一种数据聚合方法,其特征在于,所述方法应用于计算系统,所述计算系统包括R个计算设备,每个计算设备包括M个数据,所述M个数据以多个维度表示,且每个计算设备具有编号,其中,R和M均为大于1的整数;
2.如权利要求1所述的方法,其特征在于,所述R个计算设备环形连接,并通过信息传递接口MPI全部收集allgather操作进行聚合通信。
3.如权利要求2所述的方法,其特征在于,所述第一计算设备分别获取所述每个计算设备的M个数据,包括:
4.如权利要求3所述的方法,其特征在于,所述第二计算设备根据所述聚合维度确定将所述M个数据发送给所述第一计算设备过程中每次发送的数据个数,包括:
5.如权利要求1-4中任一项所述的方法,其特征在于,所述第一计算设备对所述每个计算设备的M个数据以所述聚合维度按照每个计算设备的编号顺序进行聚合,包括:
6.如权利要求1-5中任一项所述的方法,其特征在于,所述第一计算设备确定对数据的聚合维度,包括:
7.一种计算系统,其特征在于,所述计算系统包括R个计算设备,每个计算设备包括M个数据,所述
8.如权利要求7所述的计算系统,其特征在于,所述R个计算设备环形连接,并通过信息传递接口MPI全部收集allgather操作进行聚合通信。
9.如权利要求8所述的计算系统,其特征在于,所述R个计算设备中还包括第二计算设备;
10.如权利要求9所述的计算系统,其特征在于,所述第二计算设备在根据所述聚合维度确定将所述M个数据发送给所述第一计算设备过程中每次发送的数据个数时,具体用于:
11.如权利要求7-10中任一项所述的计算系统,其特征在于,所述第一计算设备在对所述每个计算设备的M个数据以所述聚合维度按照每个计算设备的编号顺序进行聚合时,具体用于:
12.如权利要求7-11中任一项所述的计算系统,其特征在于,所述第一计算设备在确定对数据的聚合维度时,具体用于:
13.如权利要求7-12中任一项所述的计算系统,其特征在于,所述R个计算设备中的一个或多个计算设备部署于一个服务器中。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序或指令,当所述计算机程序或指令被计算系统执行时,
...【技术特征摘要】
1.一种数据聚合方法,其特征在于,所述方法应用于计算系统,所述计算系统包括r个计算设备,每个计算设备包括m个数据,所述m个数据以多个维度表示,且每个计算设备具有编号,其中,r和m均为大于1的整数;
2.如权利要求1所述的方法,其特征在于,所述r个计算设备环形连接,并通过信息传递接口mpi全部收集allgather操作进行聚合通信。
3.如权利要求2所述的方法,其特征在于,所述第一计算设备分别获取所述每个计算设备的m个数据,包括:
4.如权利要求3所述的方法,其特征在于,所述第二计算设备根据所述聚合维度确定将所述m个数据发送给所述第一计算设备过程中每次发送的数据个数,包括:
5.如权利要求1-4中任一项所述的方法,其特征在于,所述第一计算设备对所述每个计算设备的m个数据以所述聚合维度按照每个计算设备的编号顺序进行聚合,包括:
6.如权利要求1-5中任一项所述的方法,其特征在于,所述第一计算设备确定对数据的聚合维度,包括:
7.一种计算系统,其特征在于,所述计算系统包括r个计算设备,每个计算设备包括m个数据,所述m个数据以多个维度表示,且每个计算设备具有编号,其中,r和m均...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。