【技术实现步骤摘要】
计算系统以及进行数据广播和数据归约的方法及存储介质
[0001]本公开的实施例总体涉及信息处理领域,并且更具体地涉及一种计算系统以及进行数据广播和数据归约的方法及存储介质。
技术介绍
[0002]在多计算核的计算系统中,深度学习任务批处理(batch)被划分并且在多计算核间并行处理。具体来说,深度神经网络的每一次迭代,输入的待处理数据对象(例如输入的矩阵数据对象)会被等分成多份,然后分别在多个计算核中独立进行前向传播和后向传播的运算,计算出梯度。在该次迭代完成后,合并梯度以及更新深度神经网络的参数,然后进行下一次迭代。
[0003]数据归约和数据广播是深度学习任务批处理过程中使用频率较大的两种处理。在传统方案中,仅会在存储器中为输入的待处理数据对象创建一个单独的存储器对象,该存储器对象为所有计算核共用,因此在需要对待处理数据对象的相关数据进行广播操作或归约操作时,需要在各相关的计算核之间多次来回地传输各种相关的数据,从而导致长延迟时间以及计算核的大带宽消耗,进而导致了严重的性能问题。
[0004]例如,在传统 ...
【技术保护点】
【技术特征摘要】
1.一种计算系统,包括设置在一个或多个计算设备中的多个计算核、分别位于所述一个或多个计算设备中的一个或多个片上网络、以及存储器,所述一个或多个计算设备的数目小于所述多个计算核的数目,每一计算设备中的计算核均连接到对应的片上网络,以通过所述片上网络相互通信;所述存储器中包括为输入的待处理数据对象创建的多个存储器对象,每一个存储器对象中均存储有关于所述待处理数据对象的数据,并且所述多个存储器对象被配置成使用相同的偏移地址来存储相同的数据;所述多个存储器对象的数目与所述多个计算核的数目相同,并且每一存储器对象被配置为仅允许所述多个计算核中与所述存储器对象相关联的计算核进行存取。2.根据权利要求1所述的计算系统,其中所创建的每一存储器对象具有相应的配置信息,所述配置信息包括分配给相应存储器对象的基地址,每一存储器对象的配置信息仅被提供给所述多个计算核中与所述存储器对象相关联的计算核。3.根据权利要求2所述的计算系统,其中每一存储器对象占用相应存储器的一个存储分段,并且所述配置信息还包括每一存储器对象所占的存储分段的长度、宽度和高度。4.根据权利要求1所述的计算系统,其中所述存储器包括系统存储器,所述系统存储器也连接到所述一个或多个片上网络,并且所述多个存储器对象都被创建在所述系统存储器上。5.根据权利要求4所述的计算系统,其中所述计算系统还包括多个高速缓存存储器,所述多个高速缓存存储器的数目与所述多个计算核的数目相同,每一计算核与所述多个高速缓存存储器中在所述计算核本地的一个高速缓存存储器连接,并且与任一计算核相关联的存储器对象的逻辑页面被映射到与所述计算核连接的高速缓存存储器上,以供所述计算核通过所述高速缓存存储器来对相关联的存储器对象进行存取。6.根据权利要求1所述的计算系统,其中所述存储器包括分别包括在所述多个计算核中的多个片上存储器,并且与每一计算核相关联的存储器对象被创建在相应计算核的片上存储器上。7.根据权利要求1所述的计算系统,其中所述存储器包括系统存储器以及分别包括在所述多个计算核中的至少一个计算核中的至少一个片上存储器,与所述多个计算核中的至少一个计算核相关联的存储器对象被分别创建在相应计算核的片上存储器上;与所述多个计算核中的所述至少一个计算核之外的其他计算核相关联的存储器对象都被创建在所述系统存储器上。8.根据权利要求1所述的计算系统,其中所述多个计算核被划分成多个计算核群组,每一计算核群组具有相应的群组标识符。9.根据权利要求8所述的计算系统,其中所述多个计算核根据所在的计算设备或者计算节点被划分为多个计算核群组。10.根据权利要求1所述的计算系统,其中所述一个或多个计算设备通过总线相互通信。11.一种用于进行数据广播的方法,所述方法在根据权利要求1
‑
10中的...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:上海壁仞智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。