System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 业务数据分类预测模型的生成方法、装置及计算机设备制造方法及图纸_技高网

业务数据分类预测模型的生成方法、装置及计算机设备制造方法及图纸

技术编号:39969097 阅读:7 留言:0更新日期:2024-01-09 00:38
本申请涉及一种业务数据分类预测模型的生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,可用于金融领域中的业务数据分类。其中,该方法包括:根据目标业务场景下的原始数据确定多个基学习器以及结果权重,用原始数据对基学习器进行训练并得到预测结果,再按照结果权重确定综合预测结果及预测准确率,基于标准阈值调整基学习器后生成分类预测模型。这样,通过对多个基学习器进行统筹训练,并根据预测结果调整基学习器的结果权重,从而使得到的综合预测结果更符合预设标准,预测准确率更高,若基学习器训练效果不佳可以减少训练样本数量,从而降低模型训练的资源消耗,节省模型训练时间。

【技术实现步骤摘要】

本公开涉及大数据处理领域,尤其涉及一种业务数据分类预测模型的生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。


技术介绍

1、随着大数据技术的发展和数据库的广泛应用,数据资产的重要性日益凸显。特别是金融行业等领域,掌握着海量的客户业务数据。因此,如何对大量的业务数据进行评估,从而实现对不同客户群体数据的分类管理,一直是各大机构重点关注的问题。

2、目前的解决方案主要分为两种:一种是人工评估分类法,另一种是基于规则和指标的自动评估分类法。人工评估分类法是一种直观而且直接的方法,但当业务数据增长到一定规模后,人工评估工作量大,效率低,容易受到个人主观意识的影响;另一方面,人工评估容易遗漏或者忽略某些重要数据。基于规则和指标的模型分类法通过设定一些规则和指标训练特定的分类模型,由分类模型对数据进行评估分类,但这种模型往往过度依赖于训练时的原始数据,对新数据适用性不高,且由于数据和指标类型的复杂性和多样性,训练时间过长,模型的训练成本过高。


技术实现思路

1、基于此,针对上述技术问题,提供一种业务数据分类预测模型的生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。本公开的技术方案如下:

2、根据本公开实施例的一个方面,提供一种业务数据分类预测模型的生成方法,包括:

3、获取目标业务场景下的原始数据;

4、根据所述目标业务场景,确定多个基学习器并分别为每个基学习器分配初始的结果权重;

5、将所述原始数据作为训练集对所述基学习器进行训练,并获取所述基学习器输出的预测结果;

6、根据所述预测结果和所述结果权重,确定综合预测结果,并计算所述综合预测结果的预测准确率;

7、调整所述基学习器的结果权重以及训练样本数量,直至根据所述基学习器得到的预测准确率达到预设的标准阈值后,根据所述基学习器生成业务数据分类预测模型。

8、在其中一个实施例中,所述调整所述基学习器的结果权重以及训练样本数量包括:

9、计算所述预测结果与所述综合预测结果在预设指标下的差异系数;

10、根据所述差异系数,降低所述预测结果对应的基学习器的结果权重,并减少训练样本数量。

11、在其中一个实施例中,在根据所述差异系数,降低所述预测结果对应的基学习器的结果权重,并减少训练样本数量之后,还包括:

12、在所述结果权重低于预设权重阈值的情况下,调整所述基学习器的机器学习算法和训练样本数量。

13、在其中一个实施例中,所述获取目标业务场景下的原始数据包括:

14、获取目标业务场景下的历史业务数据;

15、基于信息熵算法,从所述历史业务数据中筛选出信息量达到预设阈值的初始业务数据;

16、计算所述初始业务数据中不同数据特征之间的相关系数,对相关系数达到预设的相关性阈值的数据特征进行合并,合并后得到原始数据。

17、在其中一个实施例中,在从所述历史业务数据中筛选出信息量达到预设阈值的初始业务数据之前,还包括:

18、识别所述历史业务数据中的敏感数据;所述敏感数据为能单独反映用户身份的业务数据;

19、对所述敏感数据进行脱敏处理。

20、在其中一个实施例中,提供一种业务数据分类预测方法,包括:

21、获取待预测的业务数据;

22、将所述业务数据输入业务数据分类预测模型,经所述业务数据分类预测模型输出所述业务数据的分类预测结果;

23、其中,所述业务数据分类预测模型根据上述各实施例中任一项生成方法得到。

24、根据本公开实施例的另一方面,提供一种业务数据分类预测模型的生成装置,包括:

25、数据获取模块,用于获取目标业务场景下的原始数据;

26、基学习器确定模块,用于根据所述目标业务场景,确定多个基学习器并分别为每个基学习器分配初始的结果权重;

27、初始训练模块,用于将所述原始数据作为训练集对所述基学习器进行训练,并获取所述基学习器输出的预测结果;

28、结果计算模块,用于根据所述预测结果和所述结果权重,确定综合预测结果,并计算所述综合预测结果的预测准确率;

29、调整优化模块,用于调整所述基学习器的结果权重以及训练样本数量,直至根据所述基学习器得到的预测准确率达到预设的标准阈值后,根据所述基学习器生成业务数据分类预测模型。

30、根据本公开实施例的另一方面,还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

31、根据本公开实施例的另一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

32、根据本公开实施例的另一方面,还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。

33、本公开实施例提供的技术方案中,可以根据目标业务场景下的原始数据确定多个基学习器以及每个基学习器初始的结果权重,将原始数据作为训练集对基学习器进行训练并获取基学习器输出的预测结果,再按照结果权重确定综合预测结果及预测准确率,基于预设的标准阈值调整基学习器后生成分类预测模型。这样,通过对多个基学习器进行统筹训练,并根据预测结果调整基学习器的结果权重,从而使得到的综合预测结果更符合预设标准,生成的分类预测模型预测准确率更高,并且基学习器可以根据目标业务场景确定,基学习器的训练样本数量也可以不断调整,若基学习器训练效果不佳可以减少训练样本数量,从而降低模型训练的资源消耗,节省模型训练时间。

34、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

本文档来自技高网...

【技术保护点】

1.一种业务数据分类预测模型的生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述调整所述基学习器的结果权重以及训练样本数量包括:

3.根据权利要求2所述的方法,其特征在于,在根据所述差异系数,降低所述预测结果对应的基学习器的结果权重,并减少训练样本数量之后,还包括:

4.根据权利要求1所述的方法,其特征在于,所述获取目标业务场景下的原始数据包括:

5.根据权利要求4所述的方法,其特征在于,在从所述历史业务数据中筛选出信息量达到预设阈值的初始业务数据之前,还包括:

6.一种业务数据分类预测方法,其特征在于,包括:

7.一种业务数据分类预测模型的生成装置,其特征在于,包括:

8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。p>

10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种业务数据分类预测模型的生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述调整所述基学习器的结果权重以及训练样本数量包括:

3.根据权利要求2所述的方法,其特征在于,在根据所述差异系数,降低所述预测结果对应的基学习器的结果权重,并减少训练样本数量之后,还包括:

4.根据权利要求1所述的方法,其特征在于,所述获取目标业务场景下的原始数据包括:

5.根据权利要求4所述的方法,其特征在于,在从所述历史业务数据中筛选出信息量达到预设阈值的初始业务数据之前,还包括:

6.一种业...

【专利技术属性】
技术研发人员:申佳润朱阿龙田林谢灿郜璐瑶马雍博王鼎李霞
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1