一种数据样本分类方法及装置制造方法及图纸

技术编号：41311877 阅读：6 留言：0更新日期：2024-05-13 14:54

本公开涉及大数据领域，提供了一种数据样本分类方法及装置，方法包括：按照预设规则，对业务样本库中的数据样本进行划分，得到多个样本组；根据各样本组，训练得到各样本组的单样本预测模型；利用任一样本组的单样本预测模型对各所述样本组进行测试，确定任一样本组的单样本预测模型对各样本组的预测效果的评价参数；根据评价参数，建立交叉评价矩阵；对交叉评价矩阵进行变换，得到同一评价度量的标准评价矩阵；根据标准评价矩阵，对多个样本组进行聚类得到多个分类结果。上述技术方案能够扩展数据分类方式，使得分类结果满足业务场景需求。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及大数据领域，尤其涉及一种数据样本分类方法及装置。

技术介绍

1、现有技术中，对于多渠道、多地域、多业务类型的多维度参数场景，存在数据分类的业务需求，例如基于数据分类结果进行信息推送等，目前数据分类方法包括如下两种：一种是基于规则划分，即根据不同维度参数将数据样本拆分为多个数据分类，比如数据样本获取渠道、数据样本所属区域等划分数据；另一种是基于算法分类，例如聚类法及决策树，常采用的有k-means聚类，层次聚类，树模型等。

2、上述基于规则的数据分类方法受限于规则设定，存在简单粗暴及分类结果较多，不利于后续预测业务开展的问题；而上述基于算法的数据分类方法存在分类结果不稳定、无法满足预测业务需求问题。具体的，分类结果应用于数据预测业务场景时，基于上述数据分类结果建立各分类的预测模型，因未考虑数据预测对数据样本分类的影响，往往存在建模时间长、预测模型多以及模型泛化能力差的问题。因此，亟需一种能够满足业务场景需求，能够建立泛化能力强的数据样本分类方法。

技术实现思路

1、本公开用于解决现有技术中多渠道、多地域、多业务类型等多参数的场景中，数据样本分类方式存在简单粗暴，分类结果不利于后续预测业务开展，进而不能建立满足通用性预测模型需求的问题。

2、为了解决上述技术问题，本公开一方面提供一种数据样本分类方法，包括：

3、按照预设规则，对业务样本库中的数据样本进行划分，得到多个样本组；

4、根据各样本组，训练得到各样本组的单样本预测模型；

5、利用任一样本组的单样本预测模型对各所述样本组进行测试，确定所述任一样本组的单样本预测模型对各所述样本组的预测效果的评价参数；

6、根据所述任一样本组的单样本预测模型对各所述样本组的预测效果的评价参数，建立交叉评价矩阵；

7、对交叉评价矩阵进行变换，得到统一评价度量的标准评价矩阵，标准评价矩阵中的元素yi,j表示第j个样本组的单样本预测模型对第i个样本组的预测效果的评价参数与第i个样本组的单样本预测模型对第i个样本组的预测效果的评价参数的差异，i及j表示样本组标识；

8、根据标准评价矩阵，对多个样本组进行聚类得到多个分类结果，其中，根据所述分类结果中的样本组及所述分类结果中样本组的单样本预测模型从标准评价矩阵中提取出的元素均小于预设阈值。

9、作为本公开进一步实施例中，还包括：

10、根据分类结果中的样本组，训练得到分类结果融合预测模型；

11、利用分类结果融合预测模型，对分类结果进行调整。

12、作为本公开进一步实施例中，利用分类结果融合预测模型，对分类结果进行调整包括：

13、利用分类结果融合预测模型对分类结果中各样本组进行测试，确定分类结果融合预测模型对分类结果中各样本组的预测效果的评价参数；

14、针对每一分类结果，计算所述每一分类结果中样本组的第一评价参数与第二评价参数的差异，其中，所述第一评价参数为分类结果融合预测模型对分类结果中各样本组的预测效果的评价参数，所述第二评价参数为分类结果中各样本组的单样本预测模型对各样本组的预测效果的评价参数；

15、根据各分类结果中样本组的第一评价参数与第二评价参数的差异，对分类结果进行调整。

16、作为文本进一步实施例中，根据各分类结果中样本组的第一评价参数与第二评价参数的差异，对分类结果进行调整包括：

17、针对每一分类结果，根据所述每一分类结果中样本组的第一评价参数与第二评价参数的差异，从所述每一分类结果中筛选出差异大于预设差异对应的样本组作为待验证样本组；

18、将所述每一分类结果的待验证样本组预调整至除所述每一分类结果外的其它分类结果中，得到与其它分类结果对应的预调整分类结果；

19、利用每一预调整分类结果中的样本组，训练得到每一预调整分类结果融合预测模型；

20、利用所述每一预调整分类结果融合预测模型对待验证样本组进行测试，得到所述每一预调整分类结果融合预测模型对所述待验证样本组的预测结果；

21、根据所述每一预调整分类结果融合预测模型对所述待验证样本组的预测结果，计算每一预调整分类结果中待验证样本组的第一评价参数与第二评价参数的差异；

22、从预调整分类结果中待验证样本组的第一评价参数与第二评价参数的差异中，筛选出最小差异对应的预调整分类结果；

23、将筛选出的预调整分类结果作为调整后分类结果。

24、作为本公开进一步实施例中，利用任一样本组的单样本预测模型对各所述样本组进行测试，确定所述任一样本组的单样本预测模型对各所述样本组的预测效果的评价参数，包括：

25、将任一样本组输入至各所述样本组的单样本预测模型，得到所述任一样本组的单样本预测模型对各所述样本组的预测结果；

26、根据所述任一样本组的单样本预测模型对各所述样本组的预测结果，计算得到所述任一样本组的单样本预测模型对各所述样本组的预测效果的评价参数。

27、作为本公开进一步实施例中，对交叉评价矩阵进行变换，得到统一评价度量的标准评价矩阵，包括：

28、对于交叉评价矩阵中的每一元素xi,j，按照如下公式计算该元素xi,j的标准度量值：

29、yi,j＝│(xi,j-xi,i)/xi,i│；

30、其中，i及j表示样本组标识，xi,j表示第j个样本组的单样本预测模型对第i个样本组的预测效果的评价参数，xi,i表示第i个样本组的单样本预测模型对第i个样本组的预测效果的评价参数，yi,j表示xi,j的标准度量值；

31、根据各元素的标准度量值，建立标准评价矩阵。

32、作为本公开进一步实施例中，根据标准评价矩阵，对多个样本组进行聚类得到多个分类结果，包括：

33、遍历每一样本组，将遍历到的每一样本组作为目标样本组，对目标样本组执行如下元素查找算法：

34、当标准评价矩阵中行表示样本组，列表示样本组的单样本预测模型时，从标准评价矩阵中定位所述目标样本组所在行的元素组；从定位的元素组中筛选出小于预设阈值的第一元素；根据第一元素所在列，确定待验证样本组；

35、当标准评价矩阵中列表示样本组，行表示样本组的单样本预测模型时，从标准评价矩阵中定位所述目标样本组所在列的元素组；从定位的元素组中筛选出小于预设阈值的第一元素；根据第一元素所在行，确定待验证样本组；

36、从标准评价矩阵中提取出待验证样本组及待验证样本组的单样本预测模型定位到的多个第二元素；判断所述第二元素是否均小于预设阈值，若是，则将待验证样本组组成一分类结果，若否，则将第二元素组成的矩阵作为一新的标准评价矩阵，遍历新的标准评价矩阵中的每一样本组，将遍历到的样本组作为子目标样本组，对子目标样本组执行所述元素查找算法。

37、本公开第二方面提供一种数据样本分类装置，包括：

<本文档来自技高网...

【技术保护点】

1.一种数据样本分类方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求2所述的方法，其特征在于，利用分类结果融合预测模型，对分类结果进行调整包括：

4.如权利要求3所述的方法，其特征在于，根据各分类结果中样本组的第一评价参数与第二评价参数的差异，对分类结果进行调整包括：

5.如权利要求1所述的方法，其特征在于，利用任一样本组的单样本预测模型对各所述样本组进行测试，确定所述任一样本组的单样本预测模型对各所述样本组的预测效果的评价参数，包括：

6.如权利要求1所述的方法，其特征在于，对交叉评价矩阵进行变换，得到统一评价度量的标准评价矩阵，包括：

7.如权利要求1所述的方法，其特征在于，根据标准评价矩阵，对多个样本组进行聚类得到多个分类结果，包括：

8.一种数据样本分类装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机设备的处理器执行时实现权利要求1至7任意一项所述方法。

...

【技术特征摘要】

1.一种数据样本分类方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求2所述的方法，其特征在于，利用分类结果融合预测模型，对分类结果进行调整包括：

4.如权利要求3所述的方法，其特征在于，根据各分类结果中样本组的第一评价参数与第二评价参数的差异，对分类结果进行调整包括：

6.如权利要求1所述的方法，其...

【专利技术属性】
技术研发人员：韩士渊，锁晶晶，张晓洁，
申请(专利权)人：百融至信北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人