一种数据处理方法和设备技术

技术编号:15280359 阅读:65 留言:0更新日期:2017-05-05 08:10
本申请公开了一种数据处理方法和设备,包括:获取数据样本集合,数据样本集合中包含训练数据样本集合和测试数据样本集合;针对待处理的分析模型的每一个参数组合,分别将参数组合和数据样本集合发送至与参数组合的资源指示属性相匹配的计算单元,使计算单元利用训练数据样本集合和参数组合训练得到分析模型的一个子分析模型;利用测试数据样本集合对每一个子分析模型所对应的参数组合进行评分,得到每一个参数组合的评分结果;根据评分结果,确定出满足设定条件的参数组合,实现从全局参数中选择出最优的参数组合,建立性能可靠的分析模型;在分析全局参数时采用异构计算集群系统,有效地使用系统资源,提升系统资源的利用率。

Data processing method and device

The invention discloses a data processing method and apparatus, including obtaining the sample data set, the sample data set contained in the training data set and test data set of samples; each parameter combination analysis model according to the parameters and, respectively according to the number of samples sent to the computing unit to match resources indicates that the property parameters, the calculation unit obtains a sub model analysis model by using training data set and training sample parameters; set for each sub analysis parameters corresponding to the model score using the test sample data, obtained each parameter combination score results; according to the results, determined to meet parameters setting conditions, to achieve the optimal combination of the parameters selected from the global parameters, establish reliable performance analysis model In the analysis of global parameters, heterogeneous computing cluster system is used to improve the utilization efficiency of system resources effectively.

【技术实现步骤摘要】

本申请涉及互联网信息处理
,尤其涉及一种数据处理方法和设备
技术介绍
随着互联网技术的发展,人们借助互联网平台进行各种网上交流,这样在互联网平台的服务器中存储了大量数据。如何对这些数据进行分析以获取数据中蕴含的商业价值成为数据处理领域的一个重要问题。目前解决上述问题采用的方式包括但不限于:首先从大量数据中抽取数据样本,利用这些数据样本通过学习算法构建分析模型,其次利用得到的分析模型对大量数据进行分析。然而,在构建分析模型时需要确定分析模型所使用的参数,在实际应用中,参数确定的方式一般有两种:第一种方式是根据经验预设分析模型所使用的参数;第二种方式是通过人工筛选的方式筛选出效果较好的参数。上述两种方式存在的问题在于:在确定参数的过程中需要消耗大量的资源(包含人力资源),同时由于在确定参数时没能覆盖到所有参数值,因此无法保证基于确定的参数建立的分析模型性能稳定,这样,后续在利用分析模型对大量数据进行分析时,导致分析结果不够准确。
技术实现思路
有鉴于此,本申请实施例提供了一种数据处理方法和设备,用于解决如何为分析模型确定出比较精准的参数的问题。一种数据处理方法,包括:获取数据样本集合,其中,所述数据样本集合中包含训练数据样本集合和测试数据样本集合;针对待处理的分析模型的每一个参数组合,分别将所述参数组合和所述训练数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果,其中,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源;根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。一种数据处理设备,包括:获取单元,用于获取数据样本集合,其中,所述数据样本集合中包含训练数据样本集合和测试数据样本集合;分配单元,用于针对待处理的分析模型的每一个参数组合,分别将所述参数组合和所述数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果,其中,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源;处理单元,用于根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。本申请有益效果如下:本申请实施例提供的数据处理方法和设备,通过获取数据样本集合,所述数据样本集合中包含训练数据样本集合和测试数据样本集合;针对待处理的分析模型的每一个参数组合,分别将所述参数组合和所述数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源;根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。这样,基于任意一种分析模型,可以对该分析模型所包含的全局参数进行测试,进而从所述全局参数中选择出最优的参数组合,以便于建立性能可靠的分析模型,并为后续利用分析模型对大量数据进行分析奠定基础,有效提高数据分析结果的精度;同时,本申请在分析全局参数时采用异构计算集群系统,根据参数组合的资源指示属性选择计算单元,以保证计算单元之间的资源均衡,有效地使用系统资源,提升了系统资源的利用率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种数据处理方法的流程示意图;图2为基于异构计算集群对不同参数组合进行评分的结构示意图;图3为基于异构计算集群对K-近邻分类算法中的参数K进行评分的结构示意图;图4为本申请实施例提供的一种数据处理设备的结构示意图。具体实施方式为了实现本申请的目的,本申请实施例提供了一种数据处理方法和设备,通过获取数据样本集合,所述数据样本集合中包含测试数据样本集合和训练数据样本集合;针对待处理的分析模型的每一个参数组合,分别将所述参数组合和所述数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源;根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。这样,基于任意一种分析模型,可以对该分析模型所包含的全局参数进行测试,进而从所述全局参数中选择出最优的参数组合,以便于建立性能可靠的分析模型,并为后续利用分析模型对大量数据进行分析奠定基础,有效提高数据分析结果的精度;同时,本申请在分析全局参数时采用异构计算集群系统,根据参数组合的资源指示属性选择计算单元,以保证计算单元之间的资源均衡,有效地使用系统资源,提升了系统资源的利用率。需要说明的是,本申请实施例中所述分析模型可以是机器学习算法,例如:K-近邻算法,随机森林算法,支持向量机算法等等,也可以是构造的某一种数据分析模型,这里不做具体限定。下面结合说明书附图对本申请各个实施例作进一步地详细描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。图1为本申请实施例提供的一种数据处理方法的流程示意图。所述方法可以如下所示。步骤101:获取数据样本集合。其中,所述数据样本集合中包含训练数据样本集合和测试数据样本集合。在步骤101中,从原始数据集合中获取数据样本集合。假设原始数据集合的规模比较大,所包含的数据量比较多时,可以通过数据采样技术从原始数据集合中采样得到相对少量的N个数据组合得到数据样本集合。N的取值范围不限,可以根据原始数据集合规模而定,也可以根据实际需要确定。若原始数据集合的规模比较小,那么直接将原始数据集合作为数据样本集合即可,无需进行数据采样。在得到数据样本集合后,对数据样本集合中的数据进行拆分,以得到训练数据样本集合和测试数据样本集合。即从数据样本集合中随机抽取一部分数据作为训练数据样本集合中的数据,剩余部分作为测试数据样本集合中的数据(例如:可选择80%的数据作为训练数据样本集合中的数据,剩余20%的数据作为测试数据样本集合中的数据)。这里需要说明的是,训练数据样本集合中正负数据样本文档来自技高网...
一种数据处理方法和设备

【技术保护点】
一种数据处理方法,其特征在于,包括:获取数据样本集合,其中,所述数据样本集合中包含训练数据样本集合和测试数据样本集合;针对待处理的分析模型的每一个参数组合,分别将所述参数组合和所述数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果,其中,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源;根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取数据样本集合,其中,所述数据样本集合中包含训练数据样本集合和测试数据样本集合;针对待处理的分析模型的每一个参数组合,分别将所述参数组合和所述数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元,使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型,并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分,得到每一个所述参数组合的评分结果,其中,所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源;根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合。2.如权利要求1所述的数据处理方法,其特征在于,确定所述参数组合的资源指示属性,包括:分别计算所述参数组合中每一个参数的资源指示属性;根据每一个参数的资源指示属性,计算得到所述参数组合的资源指示属性。3.如权利要求2所述的数据处理方法,其特征在于,计算所述参数组合中每一个参数的资源指示属性,包括:针对所述参数组合中每一个参数,执行以下操作:选择其中一个未执行操作的参数,并确定选择的所述参数的取值以及所述参数与基于所述参数完成计算所需要的计算资源之间的相关性;根据所述参数的取值以及所述相关性,计算得到选择的所述参数的资源指示属性。4.如权利要求1所述的数据处理方法,其特征在于,确定待处理的分析模型的参数组合,包括:获取待处理的分析模型,并确定所述分析模型所使用的参数以及所述参数的参数属性,其中,所述参数属性中包含所述参数的迭代间隔、所述参数的取值范围以及所述参数与基于所述参数完成计算所需的计算资源之间的相关性;根据各个所述参数的迭代间隔和各个所述参数的取值范围,得到所述分析模型的参数组合,其中,每一个所述参数组合中包含每一个所述参数,不同所述参数组合中包含的至少一个相同的所述参数的取值不同。5.如权利要求1所述的数据处理方法,其特征在于,根据所述评分结果,确定出基于所述待处理的分析模型的满足设定条件的参数组合,包括:针对每一个所述参数组合对应的所述评分结果,将其中所述评分结果大于设定阈值的参数组合确定为基于所述待处理的分析模型的满足设定条件的参数组合。6.一种数据处理设备,其特征在于,包括:获取单元,用于获取数据样本集合,其中,所述数据样本集合中包...

【专利技术属性】
技术研发人员:王凯毛仁歆
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1