一种数据处理方法和设备技术

技术编号：15280359 阅读：65 留言：0更新日期：2017-05-05 08:10

本申请公开了一种数据处理方法和设备，包括：获取数据样本集合，数据样本集合中包含训练数据样本集合和测试数据样本集合；针对待处理的分析模型的每一个参数组合，分别将参数组合和数据样本集合发送至与参数组合的资源指示属性相匹配的计算单元，使计算单元利用训练数据样本集合和参数组合训练得到分析模型的一个子分析模型；利用测试数据样本集合对每一个子分析模型所对应的参数组合进行评分，得到每一个参数组合的评分结果；根据评分结果，确定出满足设定条件的参数组合，实现从全局参数中选择出最优的参数组合，建立性能可靠的分析模型；在分析全局参数时采用异构计算集群系统，有效地使用系统资源，提升系统资源的利用率。

Data processing method and device

The invention discloses a data processing method and apparatus, including obtaining the sample data set, the sample data set contained in the training data set and test data set of samples; each parameter combination analysis model according to the parameters and, respectively according to the number of samples sent to the computing unit to match resources indicates that the property parameters, the calculation unit obtains a sub model analysis model by using training data set and training sample parameters; set for each sub analysis parameters corresponding to the model score using the test sample data, obtained each parameter combination score results; according to the results, determined to meet parameters setting conditions, to achieve the optimal combination of the parameters selected from the global parameters, establish reliable performance analysis model In the analysis of global parameters, heterogeneous computing cluster system is used to improve the utilization efficiency of system resources effectively.

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及互联网信息处理
，尤其涉及一种数据处理方法和设备。
技术介绍
随着互联网技术的发展，人们借助互联网平台进行各种网上交流，这样在互联网平台的服务器中存储了大量数据。如何对这些数据进行分析以获取数据中蕴含的商业价值成为数据处理领域的一个重要问题。目前解决上述问题采用的方式包括但不限于：首先从大量数据中抽取数据样本，利用这些数据样本通过学习算法构建分析模型，其次利用得到的分析模型对大量数据进行分析。然而，在构建分析模型时需要确定分析模型所使用的参数，在实际应用中，参数确定的方式一般有两种：第一种方式是根据经验预设分析模型所使用的参数；第二种方式是通过人工筛选的方式筛选出效果较好的参数。上述两种方式存在的问题在于：在确定参数的过程中需要消耗大量的资源(包含人力资源)，同时由于在确定参数时没能覆盖到所有参数值，因此无法保证基于确定的参数建立的分析模型性能稳定，这样，后续在利用分析模型对大量数据进行分析时，导致分析结果不够准确。
技术实现思路
有鉴于此，本申请实施例提供了一种数据处理方法和设备，用于解决如何为分析模型确定出比较精准的参数的问题。一种数据处理方法，包括：获取数据样本集合，其中，所述数据样本集合中包含训练数据样本集合和测试数据样本集合；针对待处理的分析模型的每一个参数组合，分别将所述参数组合和所述训练数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元，使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型，并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分，得到每一个所述参...
一种数据处理方法和设备

【技术保护点】
一种数据处理方法，其特征在于，包括：获取数据样本集合，其中，所述数据样本集合中包含训练数据样本集合和测试数据样本集合；针对待处理的分析模型的每一个参数组合，分别将所述参数组合和所述数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元，使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型，并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分，得到每一个所述参数组合的评分结果，其中，所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源；根据所述评分结果，确定出基于所述待处理的分析模型的满足设定条件的参数组合。

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取数据样本集合，其中，所述数据样本集合中包含训练数据样本集合和测试数据样本集合；针对待处理的分析模型的每一个参数组合，分别将所述参数组合和所述数据样本集合发送至与所述参数组合的资源指示属性相匹配的计算单元，使得所述计算单元利用所述训练数据样本集合和所述参数组合训练得到所述分析模型的一个子分析模型，并利用所述测试数据样本集合对每一个所述子分析模型所对应的参数组合进行评分，得到每一个所述参数组合的评分结果，其中，所述资源指示属性用于表征基于所述分析模型使用所述参数组合完成计算所需要的计算资源；根据所述评分结果，确定出基于所述待处理的分析模型的满足设定条件的参数组合。2.如权利要求1所述的数据处理方法，其特征在于，确定所述参数组合的资源指示属性，包括：分别计算所述参数组合中每一个参数的资源指示属性；根据每一个参数的资源指示属性，计算得到所述参数组合的资源指示属性。3.如权利要求2所述的数据处理方法，其特征在于，计算所述参数组合中每一个参数的资源指示属性，包括：针对所述参数组合中每一个参数，执行以下操作：选择其中一个未执行操作的参数，并确定选择的所述参数的取值以及所述参数与基于所述参数完成计算所需要的计算资源之间的相关性；根据所述参数的取值以及所述相关性，计算得到选择的所述参数的资源指示属性。4.如权利要求1所述的数据处理方法，其特征在于，确定待处理的分析模型的参数组合，包括：获取待处理的分析模型，并确定所述分析模型所使用的参数以及所述参数的参数属性,其中，所述参数属性中包含所述参数的迭代间隔、所述参数的取值范围以及所述参数与基于所述参数完成计算所需的计算资源之间的相关性；根据各个所述参数的迭代间隔和各个所述参数的取值范围，得到所述分析模型的参数组合，其中，每一个所述参数组合中包含每一个所述参数，不同所述参数组合中包含的至少一个相同的所述参数的取值不同。5.如权利要求1所述的数据处理方法，其特征在于，根据所述评分结果，确定出基于所述待处理的分析模型的满足设定条件的参数组合，包括：针对每一个所述参数组合对应的所述评分结果，将其中所述评分结果大于设定阈值的参数组合确定为基于所述待处理的分析模型的满足设定条件的参数组合。6.一种数据处理设备，其特征在于，包括：获取单元，用于获取数据样本集合，其中，所述数据样本集合中包...

【专利技术属性】
技术研发人员：王凯，毛仁歆，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人