【技术实现步骤摘要】
多级分布式数据处理部署系统及其方法
本公开涉及一种数据处理技术。更具体地说,本公开涉及一种基于多维SBP分布式签名的多级分布式数据处理部署系统及其方法。
技术介绍
随着分布式计算的普及,大型的作业或大逻辑张量会通过分割而将不同部分的数据部署到不同的分布式数据处理系统的各个数据处理设备上进行处理,并在各个部分计算过程需要进行中间参数的交互。这样,在具体作业的处理过程中,部署在一个数据处理设备上的计算中间参数或结果会称为另一个数据处理设备上的计算任务的输入数据,这会引起数据处理设备之间的数据传输开销。在作业数据很大的情况下,这种不同数据处理设备之间的传输开销对于分布式数据处理系统而言将造成极大的计算负担。但是随着模型越来越大以及待处理数据也越来越大,在单机无法实现模型处理的情况下,一方面通过提高数据处理设备(例如GPU卡)的内存来满足模型过大的情形,但是通常一张16G的GPU卡的价格要比两张8G的GPU卡的价格还要贵一倍。因此一味提高单机的内存资源是不合算的。因此在有些场景模型太大以至于使用数据并行通信开销太大,或者模型 ...
【技术保护点】
1.一种多级分布式数据处理部署系统,包括:/n设备层级设置组件,将多个逻辑数据处理设备设置为至少两级并行逻辑数据处理设备并指定彼此之间的逻辑层级关系,由此确定SBP分布式签名的维度数量,其中每个上级逻辑数据处理设备含有或连接有相同数据量的下级数据处理设备构成;/n位置标记获取组件,获取所有逻辑数据处理设备的位置标记;/n初始逻辑节点拓扑图生成组件,基于接收用户输入的任务配置数据,生成用于多级分布式数据处理系统的初始逻辑节点拓扑图,每个初始逻辑节点附有一个或多个候选多维SBP分布式签名以及位置标记,每个多维SBP分布式签名的输入端和输出端的多维SBP分布描述符的每一维度的描述 ...
【技术特征摘要】 【专利技术属性】
1.一种多级分布式数据处理部署系统,包括:
设备层级设置组件,将多个逻辑数据处理设备设置为至少两级并行逻辑数据处理设备并指定彼此之间的逻辑层级关系,由此确定SBP分布式签名的维度数量,其中每个上级逻辑数据处理设备含有或连接有相同数据量的下级数据处理设备构成;
位置标记获取组件,获取所有逻辑数据处理设备的位置标记;
初始逻辑节点拓扑图生成组件,基于接收用户输入的任务配置数据,生成用于多级分布式数据处理系统的初始逻辑节点拓扑图,每个初始逻辑节点附有一个或多个候选多维SBP分布式签名以及位置标记,每个多维SBP分布式签名的输入端和输出端的多维SBP分布描述符的每一维度的描述符描述了逻辑张量在对应层级的逻辑数据处理设备上的分布方式以及每个位置标记指明了逻辑张量所部署的逻辑数据处理设备;
传输代价查询组件,针对每个当前初始逻辑节点,基于其每个已经确定了的多维SBP分布式签名的上游逻辑节点的输出端的多维SBP分布描述符以及当前初始逻辑节点的每个候选多维SBP分布式签名的与所述上游逻辑节点的输出端对应输入端的多维SBP分布描述符,查询传输代价换算表获取上游逻辑节点的输出端的多维SBP分布描述符与前初始逻辑节点的对应输入端的多维SBP分布描述符两者之间的传输代价;
结果逻辑节点拓扑图生成组件,基于传输代价查询组件查询结果,获取当前初始逻辑节点的每个候选多维SBP分布式签名的所有输入端的所需传输代价总和,从而选择传输代价总和最小的候选多维SBP分布式签名作为所述当前初始逻辑节点的确定的多维SBP分布式签名,从而获得具有确定的多维SBP分布式签名的当前结果逻辑节点。
2.根据权利要求1所述的多级分布式数据处理部署系统,还包括:
计算图生成组件,用于基于确定了多维SBP分布式签名的结果逻辑节点构成结果逻辑节点拓扑图生成任务逻辑计算图,并在当前结果逻辑节点的一个输入端的多维SBP分布描述符与对应的上游逻辑节点的输出端的多维SBP分布描述符不同时,在当前结果逻辑节点对应的各个当前计算节点的所述输入端和对应的上游逻辑节点对应的各个计算节点的输出端之间插入变换计算节点,以便将上游逻辑节点对应的各个计算节点的输出端所输出的由输出端的多维SBP分布描述符描述的逻辑张量变换为当前结果逻辑节点对应的各个计算节点的对应的输入端所要输入的由输入端的多维SBP分布描述符描述的逻辑张量。
3.根据权利要求2所述的多级分布式数据处理部署系统,其中所述设备层级设置组件基于接收用户输入的任务配置数据,在一个逻辑数据处理设备的实际计算资源小于该逻辑数据处理设备的输入端的逻辑张量和结果逻辑张量所需的计算资源时,在所述逻辑数据处理设备所属的逻辑层级之上设置一个上级逻辑数据处理设备作为时间维度逻辑数据处理设备,每个候选多维SBP分布式签名中与所述时间维度逻辑数据处理设备对应维度的SBP分布描述符为时间维度分布描述符,属于同一候选多维SBP分布式签名的时间维度分布描述符包括分割逻辑张量描述符和广播逻辑张量分布描述符,其中分割逻辑张量描述符所附有的逻辑张量的分割次数与广播逻辑张量分布描述符所附有的逻辑张量的广播次数相同。
4.根据权利要求3所述的多级分布式数据处理部署系统,其中所述计算图生成组件在多维SBP分布式签名中含有时间维度分布描述符时,基于分割逻辑张量描述符在当前逻辑节点对应的计算节点对应输入端之前插入分割计算节点、基于广播逻辑张量分布描述符在当前逻辑节点对应的计算节点的输入端之前插入重复广播计算节点以及在当前逻辑节点对应的计算节点的输出端之后插入集结计算节点。
技术研发人员:李新奇,柳俊丞,郭冉,李一鹏,袁进辉,
申请(专利权)人:北京一流科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。