数据处理装置和服务器制造方法及图纸

技术编号:15541822 阅读:126 留言:0更新日期:2017-06-05 11:03
本发明专利技术实施例提供了一种数据处理装置和服务器,其中数据处理装置包括M行节点芯片,每行节点芯片包括N个节点芯片;所述M行节点芯片中的首节点芯片依次连接,形成首列节点芯片;其中,M、N分别为大于1的整数;所述首列节点芯片中的各首节点芯片,用于按照从第1行至第M行的顺序,依次传输处理第一通信数据;所述每行节点芯片中的各节点芯片,用于按照从首节点芯片至末节点芯片的顺序,依次传输处理所述第一通信数据。本发明专利技术实施例可以减少通信数据的传输时间,提高数据处理效率。

Data processing device and server

The embodiment of the invention provides a data processing device and a server, wherein the data processing device includes a M chip for each node, a node node chip comprises a N chip; the first node chip of the M node chip connected to the first node, the formation of the chip; M, N were 1 integer greater than the first node chip; the first node, from first to M according to the order of the rows, followed by the first communication data transmission and processing; each node chip chip of the each node, according to chip from the first node to the distal point chip sequence, followed by the first communication data transmission and processing. The embodiment of the invention can reduce the transmission time of communication data and improve the data processing efficiency.

【技术实现步骤摘要】
数据处理装置和服务器
本专利技术涉及数据处理技术,尤其涉及一种数据处理装置和服务器。
技术介绍
目前,深度学习是机器学习研究中的一个新的领域,是所有高科技研究和开发中最热门的领域之一,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习的关键是DNN(DeepNeuralNetwork,深度神经网络),由于DNN具有深层结构、数千万参数需要学习,因此DNN的预测和训练过程需要巨大的计算能力。通常,通过部署在多个芯片上的计算节点构成DNN,提高DNN的计算能力。在DNN训练过程中,经常需要CPU(中央处理单元)和DNN之间传输Broadcast(广播)消息和Gather(收集)消息。现有技术中,是将所有芯片串联,构成一维芯片链,再将CPU与一维芯片链中的首芯片连接,Broadcast消息由CPU从一维芯片链的首芯片依次传送到一维芯片链的末芯片;Gather消息分别则从一维芯片链的末芯片依次传输到首芯片,再传输给CPU。在实现本专利技术的过程中,专利技术人发现,现有技术一维芯片链至少存在以下问题:当一维芯片链包括的芯片个数较多时,Broadcast和Gather消息分别需要从一维芯片链的一端依次传输到另一端,需要经过较多芯片的转发,需要较长的消息传输时间,从而提升了DNN的数据处理时延,降低了DNN的数据处理效率。
技术实现思路
本专利技术实施例所要解决的其中一个技术问题是,提供一种数据处理装置和服务器,以减少通信数据的传输时间,提高数据处理效率。为解决上述技术问题,根据本专利技术实施例的一个方面,提供一种数据处理装置,包括M行节点芯片,每行节点芯片包括N个节点芯片;所述M行节点芯片中的首节点芯片依次连接,形成首列节点芯片;其中,M、N分别为大于1的整数;所述首列节点芯片中的各首节点芯片,用于按照从第1行至第M行的顺序,依次传输处理第一通信数据;所述每行节点芯片中的各节点芯片,用于按照从首节点芯片至末节点芯片的顺序,依次传输处理所述第一通信数据。可选地,上述各实施例的数据处理装置中,所述每行节点芯片中的各节点芯片,还用于按照从末节点芯片至首节点芯片的顺序,依次传输各节点芯片产生的第二通信数据;所述首列节点芯片中的各首节点芯片,用于按照从第1行至第M行的顺序,依次传输各节点芯片产生的第二通信数据。可选地,上述各实施例的数据处理装置中,所述第1行节点芯片中的首节点芯片设置有与主板连接的第一外部接口,用于通过所述第一外部接口接收主板发送的所述第一通信数据;所述第M行节点芯片中的首节点芯片设置有与主板连接的第二外部接口,用于通过所述第二外部接口向主板发送收集到的所有节点芯片的第二通信数据。可选地,上述各实施例的数据处理装置中,还包括:主机节点芯片,设置有与主板连接的第三外部接口,并分别与所述第1行和第M行节点芯片中的首节点芯片连接,用于通过所述第三外部接口接收主板发送的所述第一通信数据并转发给第1行节点芯片中的首节点芯片,以及接收第M行节点芯片中的首节点芯片收集的、所有节点芯片的第二通信数据并通过所述第三外部接口转发给主板。可选地,上述各实施例的数据处理装置中,所述每行节点芯片中的各节点芯片,还用于按照从末节点芯片至首节点芯片的顺序,依次传输各节点芯片产生的第二通信数据;所述首列节点芯片中的各首节点芯片,用于按照从第M行至第1行的顺序,依次传输各节点芯片产生的第二通信数据。可选地,上述各实施例的数据处理装置中,所述第1行节点芯片中的首节点芯片设置有与主板连接的第一外部接口,用于通过所述第一外部接口接收主板发送的所述第一通信数据,以及向主板发送收集到的所有节点芯片的第二通信数据。可选地,上述各实施例的数据处理装置中,还包括:主机节点芯片,设置有与主板连接的第三外部接口,并与所述第1行节点芯片中的首节点芯片连接,用于通过所述第三外部接口接收主板发送的所述第一通信数据并转发给第1行节点芯片中的首节点芯片,以及接收第1行节点芯片中的首节点芯片收集的、所有节点芯片的第二通信数据并通过所述第三外部接口转发给主板。可选地,上述各实施例的数据处理装置中,所述第一通信数据包括广播Broadcast消息,所述Broadcast消息中包括以下任意一项或多项:深度学习网络模型配置参数,芯片配置参数,网络训练任务,汇报请求和请求汇报的任务;所述第二通信数据包括收集Gather消息,所述Gather消息包括以下任意一项或多项:深度学习网络模型训练后参数,进行网络训练任务获得的训练结果,网络训练任务的处理状态,基于所述汇报请求汇报的任务。可选地,上述各实施例的数据处理装置中,所述M行节点芯片中的末节点芯片依次连接,形成末列节点芯片,所述第1行节点芯片中的末节点芯片与所述第M行节点芯片中的末节点芯片连接。可选地,上述各实施例的数据处理装置中,所述第一通信数据包括分发Distribute数据,所述Distribute数据包括待处理任务;各节点芯片,还用于按照预先设置的策略,对分发给自己的待处理任务进行处理;所述第二通信数据包括对待处理任务进行处理获得的数据处理结果。可选地,上述各实施例的数据处理装置中,各节点芯片上分别设置有串行器/解串器SERDES接口;具有连接关系的节点芯片之间具体通过SERDES接口,采用SERDES通信通道连接;或者各节点芯片上分别设置有总线和接口标准PCIE接口;具有连接关系的节点芯片之间具体通过PCIE接口,采用PCIE通信通道连接。可选地,上述各实施例的数据处理装置中,所述外部接口包括PCIE接口。可选地,上述各实施例的数据处理装置中,还包括分别与各节点芯片连接的存储单元。可选地,上述各实施例的数据处理装置中,所述存储单元包括双倍速率同步动态随机存储器DDR、低功率双倍速率同步动态随机存储器LPDDR、图形双倍速率同步动态随机存储器GDDR、高带宽存储器HBM、或者混合存储立方体存储器HMC。根据本专利技术实施例的另一个方面,提供一种服务器,包括主板,所述主板上具有一个以上卡槽,还包括:一个以上如上任一实施例所述的数据处理装置;所述数据处理装置中设置有外部接口的节点芯片以插接方式插入主板上的卡槽中时,设置有外部接口的节点芯片通过外部接口与主板进行数据交互。可选地,上述各实施例的服务器中,所述外部接口为总线和接口标准PCIE接口时,所述卡槽具体为PCIE插槽。可选地,上述各实施例的服务器中,还包括与主板连接的、用于与其他服务器进行数据交互的外部通信接口。可选地,上述各实施例的服务器中,所述外部通信接口包括以太网接口。基于本专利技术上述实施例的数据处理装置和服务器,数据处理装置包括M行节点芯片,每行节点芯片包括N个节点芯片,M行节点芯片中的首节点芯片依次连接,形成首列节点芯片;其中,首列节点芯片中的各首节点芯片按照从第1行至第M行的顺序,依次传输处理第一通信数据,每行节点芯片中的各节点芯片,用于按照从首节点芯片至末节点芯片的顺序,依次传输处理该第一通信数据。本专利技术实施例的数据处理装置采用了准二维结构,可以通过首列节点芯片将第一通信数据传输至各行节点芯片,在各行节点芯片中,按照从首节点芯片至末节点芯片的顺序依次将该第一通信数据传输给各节点芯片进行处理,相对于具有相同数量芯片的现有一维芯片本文档来自技高网...
数据处理装置和服务器

【技术保护点】
一种数据处理装置,其特征在于,包括M行节点芯片,每行节点芯片包括N个节点芯片;所述M行节点芯片中的首节点芯片依次连接,形成首列节点芯片;其中,M、N分别为大于1的整数;所述首列节点芯片中的各首节点芯片,用于按照从第1行至第M行的顺序,依次传输处理第一通信数据;所述每行节点芯片中的各节点芯片,用于按照从首节点芯片至末节点芯片的顺序,依次传输处理所述第一通信数据。

【技术特征摘要】
1.一种数据处理装置,其特征在于,包括M行节点芯片,每行节点芯片包括N个节点芯片;所述M行节点芯片中的首节点芯片依次连接,形成首列节点芯片;其中,M、N分别为大于1的整数;所述首列节点芯片中的各首节点芯片,用于按照从第1行至第M行的顺序,依次传输处理第一通信数据;所述每行节点芯片中的各节点芯片,用于按照从首节点芯片至末节点芯片的顺序,依次传输处理所述第一通信数据。2.根据权利要求1所述的数据处理装置,其特征在于,所述每行节点芯片中的各节点芯片,还用于按照从末节点芯片至首节点芯片的顺序,依次传输各节点芯片产生的第二通信数据;所述首列节点芯片中的各首节点芯片,还用于按照从第1行至第M行的顺序,依次传输各节点芯片产生的第二通信数据。3.根据权利要求2所述的数据处理装置,所述第1行节点芯片中的首节点芯片设置有与主板连接的第一外部接口,用于通过所述第一外部接口接收主板发送的所述第一通信数据;所述第M行节点芯片中的首节点芯片设置有与主板连接的第二外部接口,用于通过所述第二外部接口向主板发送收集到的所有节点芯片的第二通信数据。4.根据权利要求2所述的数据处理装置,其特征在于,还包括:主机节点芯片,设置有与主板连接的第三外部接口,并分别与所述第1行和第M行节点芯片中的首节点芯片连接,用于通过所述第三外部接口接收主板发送的所述第一通信数据并转发给第1行节点芯片中的首节点芯片,以及接收第M行节点芯片中的首节点芯片收集的、所有节点芯片的第二通信数据并通过所述第三外部接口转发给主板。5.根据权利要求1所述的数据处理装置,其特征在于,所述每行节点芯片中的各节点芯片,还用于按照从末节点芯片至首节点芯片的顺序,依次传输各节点芯片产生的第二通信数据;所述首列节点芯片中的各首节点芯片,还用于按照从第M行至第1行的顺序,依次传输各节点芯片产生的第二通信数据。6.根据权利要求5所述的数据处理装置,其特征在于,所述第1行节点芯片中的首节点芯片设置有与主板连接的第一外部接口,用于通过所述第一外部接口接收主板发送的所述第一通信数据,以及向主板发送收集到的所有节点芯片的第二通信数据。7.根据权利要求5所述的数据处理装置,其特征在于,还包括:主机节点芯片,设置有与主板连接的第三外部接口,并与所述第1行节点芯片中的首节点芯片连接,用于通过所述第三外部接口接收主板发送的所述第一通信数据并转发给第1行节点芯片中的首节点芯片,以及接收第1行节点芯片中的首节点芯片收集的、所有节点芯片的第二通信数据并通过所述第三外部接口转发给主板。8.根据权利要求3、4、6、7任一所述的数据处理装置,其特征在于,所述...

【专利技术属性】
技术研发人员:桂文明
申请(专利权)人:算丰科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1