数据处理系统、方法和设备技术方案

技术编号:20119430 阅读:22 留言:0更新日期:2019-01-16 12:21
本发明专利技术公开了一种数据处理系统、方法和设备。该系统包括控制组件,以及耦合到控制组件的多个计算子组件;多个计算子组件在控制组件中的处理流程的指示下,分别处理样本数据集合的样本子集,对于多个计算子组件中的一个:数据组件用于基于控制组件中的处理流程,将样本数据集合的样本子集依次输出到嵌入组件;嵌入组件,用于基于控制组件中的处理流程接收样本子集,基于映射参数,将样本子集中的样本数据映射到多维空间得到多维样本子集,并输出多维样本子集到后端组件;后端组件,用于根据后端组件中存储的模型对接收的多维样本子集进行模型训练。根据本发明专利技术实施例提供的数据处理系统,可以节约计算资源,提高海量样本数据的计算能力。

Data processing systems, methods and equipment

The invention discloses a data processing system, method and equipment. The system consists of control components and multiple computing sub-components coupled to control components. Under the instruction of processing flow in control components, multiple computing sub-components process the sample subset of sample data set separately. For one of the multiple computing sub-components, data component is used to process flow in control components, and the sample subset of sample data set is output sequentially. Embedded component, which receives sample subset based on the process flow in control component, maps sample data in sample subset to multi-dimensional space to obtain multi-dimensional sample subset based on mapping parameters, and outputs multi-dimensional sample subset to back-end component; back-end component, which is used to model training of received multi-dimensional sample subset according to the model stored in back-end component \u3002 The data processing system provided according to the embodiment of the present invention can save computing resources and improve the computing ability of massive sample data.

【技术实现步骤摘要】
数据处理系统、方法和设备
本专利技术涉及计算机
,尤其涉及数据处理系统、方法和设备。
技术介绍
从2010年以来,深度学习从学术界大规模地走向了工业界,并在图像、语音、自然语言处理等领域均取得了突破性的进展和良好的效果。深度学习可以充分利用了强大的计算力,通过多层神经网络级联的方式构建了复杂的非线性模型,在海量数据上直接进行端到端的问题求解。这些取得了良好效果的深度学习框架,往往问题空间较小且特征空间连续,并且深度模型的参数规模一般在十亿GB以下。但是,当深度模型的模型复杂度极高,参数规模动辄百亿甚至千亿,用来训练模型的样本达到几十TB甚至更大时,这样的数据规模非常耗费计算资源,计算能力低下。
技术实现思路
本专利技术实施例提供的数据处理系统、方法和设备,可以节约计算资源,提高海量样本数据的计算能力。根据本专利技术实施例的一方面,提供一种数据处理系统,包括:控制组件,以及耦合到控制组件的多个计算子组件,该计算子组件包括一个或多个数据组件、一个或多个嵌入组件和一个或多个后端组件;多个计算子组件在控制组件中的处理流程的指示下,分别处理样本数据集合的样本子集,对于多个计算子组件中的一个:数据组件,用于基于控制组件中的处理流程,将样本数据集合的样本子集依次输出到嵌入组件;嵌入组件,用于基于控制组件中的处理流程接收样本子集,基于映射参数,将样本子集中的样本数据映射到多维空间得到多维样本子集,并输出多维样本子集到后端组件;后端组件,用于接收多维样本子集,并根据后端组件中存储的模型对多维样本子集进行模型训练。根据本专利技术实施例的另一方面,提供一种数据处理方法,包括:耦合控制组件和多个计算子组件,每个计算子组件包括一个或多个数据组件、一个或多个嵌入组件和一个或多个后端组件;多个计算子组件在控制组件中的处理流程的指示下,分别处理样本数据集合的样本子集,对于多个计算子组件中的一个:数据组件基于控制组件中的处理流程,将样本数据集合的样本子集依次输出到嵌入组件;嵌入组件基于控制组件中的处理流程接收样本子集,基于映射参数,将样本子集中的样本数据映射到多维空间得到多维样本子集,并输出多维样本子集到后端组件;后端组件接收多维样本子集,并根据后端组件中存储的模型对多维样本子集进行模型训练。根据本专利技术实施例的再一方面,提供一种数据处理设备,包括:存储器和处理器;该存储器用于储存有可执行程序代码;该处理器用于读取存储器中存储的可执行程序代码以执行上述的数据处理方法。根据本专利技术实施例中的数据处理系统、方法和设备,在面对海量数据和复杂模型时,可以通过数据并行和模型并行的方式,提高数据处理过程的计算能力,节约资源,降低耗电量,达到更好的对样本进行深度模型学习的效果。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是示出根据本专利技术一实施例的数据处理系统的架构示意图;图2是示出根据本专利技术另一实施例的数据处理系统的结构示意图;图3是示出根据本专利技术实施例的数据处理方法的流程图;图4是示出能够实现根据本专利技术实施例的数据处理系统和方法的计算设备的示例性硬件架构的结构图。具体实施方式下面将详细描述本专利技术的各个方面的特征和示例性实施例,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本专利技术,并不被配置为限定本专利技术。对于本领域技术人员来说,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更好的理解。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。图1示出了根据本专利技术示意性实施例的数据处理系统的架构示意图。根据本专利技术实施例的数据处理系统100可以包括:控制组件101,耦合于控制组件101的多个计算子组件,例如:计算子组件1、计算子组件2、……、计算子组件n,其中,n为大于1的整数,并且,在本专利技术实施例的描述中,多个表示数量为大于1个。计算子组件可以包括一个数据组件(DataElement)、一个嵌入组件(EmbeddingElement)和一个后端组件(BackendElement)。在该计算子组件中,数据组件可以与嵌入组件耦合,嵌入组件可以与后端组件耦合。以计算子组件1为例,计算子组件1中包括一个数据组件102-1,一个嵌入组件103-1和一个后端组件104-1。在计算子组件1中,数据组件102-1耦合于嵌入组件103-1,嵌入组件103-1耦合于后端组件104-1。在数据处理系统100中,用户可以通过控制组件101自定义数据处理流程,多个计算子组件可以共同基于一套用户自定义的处理流程对海量数据进行处理。在本专利技术实施例中,可以将样本数据集合的数据流分散到多个计算子组件,根据控制组件101中用户设置的处理流程,计算子组件1、计算子组件2、……、和计算子组件n可以分别针对样本集合中的一个样本子集,利用该计算子组件的后端组件中存储的模型进行模型训练。也就是说,可以将对样本数据集合的数据处理的任务分布到多个计算子组件中。每个计算子组件完成的处理任务可以是整个数据处理系统100对样本数据集合进行数据处理的任务的一部分。在一个示例中,控制组件101作为数据处理系统100的一个总控设备,可以通过一台终端设备实现,也可以通过云服务实现。用户可以在本地或远端访问控制组件,自定义数据处理流程,使耦合于该控制组件101的多个计算子组件在该数据处理流程的指示下,通过每个计算子组件中数据组件、嵌入组件和后端组件的功能,共同完成对样本数据集合进行数据处理的任务。由于本专利技术实施例中的计算子组件具有相同的结构,计算子组件中的数据组件之间、嵌入组件之间以及后端组件之间在一套用户自定义的处理流程的控制下,具有相同的工作原理,下面结合多个计算子组件中的至少一个,通过具体地实施例,详细描述根据本专利技术实施例的数据处理系统。以计算子组件1为例,计算子组件1中的数据组件102-1,可以提供样本存储、样本解析以及样本数据输出等功能。在一个实施例中,数据组件102-1可以连接到数据存储器,数据存储器中包括样本数据集合的样本子集,多个计算子组件的数据存储器中存储的样本子集构成了样本数据集合的全集。在一个实施例中,样本数据集合的每个样本子集的样本容量可以相同,也可以不同。作为一个示例,如果一个样本数据集合的样本容量为500万,则该每个样本子集的样本容量可以为100万。作为一个示例,数据处理系统100可以包括控制组件,以及耦合到该控制组本文档来自技高网...

【技术保护点】
1.一种数据处理系统,包括:控制组件,以及耦合到所述控制组件的多个计算子组件,所述计算子组件包括一个或多个数据组件、一个或多个嵌入组件和一个或多个后端组件;所述多个计算子组件在所述控制组件中的处理流程的指示下,分别处理样本数据集合的样本子集,对于所述多个计算子组件中的一个:所述数据组件,用于基于所述控制组件中的处理流程,将样本数据集合的样本子集依次输出到所述嵌入组件;所述嵌入组件,用于基于所述控制组件中的处理流程接收所述样本子集,基于映射参数,将所述样本子集中的样本数据映射到多维空间得到多维样本子集,并输出所述多维样本子集到所述后端组件;所述后端组件,用于接收所述多维样本子集,并根据所述后端组件中存储的模型对所述多维样本子集进行模型训练。

【技术特征摘要】
1.一种数据处理系统,包括:控制组件,以及耦合到所述控制组件的多个计算子组件,所述计算子组件包括一个或多个数据组件、一个或多个嵌入组件和一个或多个后端组件;所述多个计算子组件在所述控制组件中的处理流程的指示下,分别处理样本数据集合的样本子集,对于所述多个计算子组件中的一个:所述数据组件,用于基于所述控制组件中的处理流程,将样本数据集合的样本子集依次输出到所述嵌入组件;所述嵌入组件,用于基于所述控制组件中的处理流程接收所述样本子集,基于映射参数,将所述样本子集中的样本数据映射到多维空间得到多维样本子集,并输出所述多维样本子集到所述后端组件;所述后端组件,用于接收所述多维样本子集,并根据所述后端组件中存储的模型对所述多维样本子集进行模型训练。2.根据权利要求1所述的数据处理系统,其中,所述多个计算子组件中的所述嵌入组件之间建立通信,并用于:根据所述控制组件中的处理流程的指示,在所述计算子组件的嵌入组件之间同步所述多维样本子集的映射参数。3.根据权利要求1所述的数据处理系统,其中,所述后端组件还用于对所述多维样本子集进行模型训练得到梯度向量,并反馈所述梯度向量;所述嵌入组件还用于接收所述后端组件反馈的梯度向量,根据所述梯度向量更新所述多维样本子集的映射参数。4.根据权利要求1所述的数据处理系统,其中,所述多个计算子组件处理的所述样本数据集合的样本子集,构成所述样本数据集合的全集。5.根据权利要求1所述的数据处理系统,其中,所述控制组件中的处理流程,是用户自定义的处理流程。6.根据权利要求5所述的数据处理系统,其中,所述多个后端组件中存储的模型包括深度学习框架TensorFlow。7.一种数据处理方法,包括:耦合控制组件和多个计算子组件,每个所述计算子组件包括一个或多个数据组...

【专利技术属性】
技术研发人员:盖坤代兴亚胡泽林黄岁刘博超宋成儒孙鹏王志闫阳辉易慧民张雨赵丽琴周国睿朱小强
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1