The invention discloses a data processing system, method and equipment. The system consists of control components and multiple computing sub-components coupled to control components. Under the instruction of processing flow in control components, multiple computing sub-components process the sample subset of sample data set separately. For one of the multiple computing sub-components, data component is used to process flow in control components, and the sample subset of sample data set is output sequentially. Embedded component, which receives sample subset based on the process flow in control component, maps sample data in sample subset to multi-dimensional space to obtain multi-dimensional sample subset based on mapping parameters, and outputs multi-dimensional sample subset to back-end component; back-end component, which is used to model training of received multi-dimensional sample subset according to the model stored in back-end component \u3002 The data processing system provided according to the embodiment of the present invention can save computing resources and improve the computing ability of massive sample data.
【技术实现步骤摘要】
数据处理系统、方法和设备
本专利技术涉及计算机
,尤其涉及数据处理系统、方法和设备。
技术介绍
从2010年以来,深度学习从学术界大规模地走向了工业界,并在图像、语音、自然语言处理等领域均取得了突破性的进展和良好的效果。深度学习可以充分利用了强大的计算力,通过多层神经网络级联的方式构建了复杂的非线性模型,在海量数据上直接进行端到端的问题求解。这些取得了良好效果的深度学习框架,往往问题空间较小且特征空间连续,并且深度模型的参数规模一般在十亿GB以下。但是,当深度模型的模型复杂度极高,参数规模动辄百亿甚至千亿,用来训练模型的样本达到几十TB甚至更大时,这样的数据规模非常耗费计算资源,计算能力低下。
技术实现思路
本专利技术实施例提供的数据处理系统、方法和设备,可以节约计算资源,提高海量样本数据的计算能力。根据本专利技术实施例的一方面,提供一种数据处理系统,包括:控制组件,以及耦合到控制组件的多个计算子组件,该计算子组件包括一个或多个数据组件、一个或多个嵌入组件和一个或多个后端组件;多个计算子组件在控制组件中的处理流程的指示下,分别处理样本数据集合的样本子集,对于多个计算子组件中的一个:数据组件,用于基于控制组件中的处理流程,将样本数据集合的样本子集依次输出到嵌入组件;嵌入组件,用于基于控制组件中的处理流程接收样本子集,基于映射参数,将样本子集中的样本数据映射到多维空间得到多维样本子集,并输出多维样本子集到后端组件;后端组件,用于接收多维样本子集,并根据后端组件中存储的模型对多维样本子集进行模型训练。根据本专利技术实施例的另一方面,提供一种数据处理方法,包括: ...
【技术保护点】
1.一种数据处理系统,包括:控制组件,以及耦合到所述控制组件的多个计算子组件,所述计算子组件包括一个或多个数据组件、一个或多个嵌入组件和一个或多个后端组件;所述多个计算子组件在所述控制组件中的处理流程的指示下,分别处理样本数据集合的样本子集,对于所述多个计算子组件中的一个:所述数据组件,用于基于所述控制组件中的处理流程,将样本数据集合的样本子集依次输出到所述嵌入组件;所述嵌入组件,用于基于所述控制组件中的处理流程接收所述样本子集,基于映射参数,将所述样本子集中的样本数据映射到多维空间得到多维样本子集,并输出所述多维样本子集到所述后端组件;所述后端组件,用于接收所述多维样本子集,并根据所述后端组件中存储的模型对所述多维样本子集进行模型训练。
【技术特征摘要】
1.一种数据处理系统,包括:控制组件,以及耦合到所述控制组件的多个计算子组件,所述计算子组件包括一个或多个数据组件、一个或多个嵌入组件和一个或多个后端组件;所述多个计算子组件在所述控制组件中的处理流程的指示下,分别处理样本数据集合的样本子集,对于所述多个计算子组件中的一个:所述数据组件,用于基于所述控制组件中的处理流程,将样本数据集合的样本子集依次输出到所述嵌入组件;所述嵌入组件,用于基于所述控制组件中的处理流程接收所述样本子集,基于映射参数,将所述样本子集中的样本数据映射到多维空间得到多维样本子集,并输出所述多维样本子集到所述后端组件;所述后端组件,用于接收所述多维样本子集,并根据所述后端组件中存储的模型对所述多维样本子集进行模型训练。2.根据权利要求1所述的数据处理系统,其中,所述多个计算子组件中的所述嵌入组件之间建立通信,并用于:根据所述控制组件中的处理流程的指示,在所述计算子组件的嵌入组件之间同步所述多维样本子集的映射参数。3.根据权利要求1所述的数据处理系统,其中,所述后端组件还用于对所述多维样本子集进行模型训练得到梯度向量,并反馈所述梯度向量;所述嵌入组件还用于接收所述后端组件反馈的梯度向量,根据所述梯度向量更新所述多维样本子集的映射参数。4.根据权利要求1所述的数据处理系统,其中,所述多个计算子组件处理的所述样本数据集合的样本子集,构成所述样本数据集合的全集。5.根据权利要求1所述的数据处理系统,其中,所述控制组件中的处理流程,是用户自定义的处理流程。6.根据权利要求5所述的数据处理系统,其中,所述多个后端组件中存储的模型包括深度学习框架TensorFlow。7.一种数据处理方法,包括:耦合控制组件和多个计算子组件,每个所述计算子组件包括一个或多个数据组...
【专利技术属性】
技术研发人员:盖坤,代兴亚,胡泽林,黄岁,刘博超,宋成儒,孙鹏,王志,闫阳辉,易慧民,张雨,赵丽琴,周国睿,朱小强,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。