一种业务数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34881621 阅读:17 留言:0更新日期:2022-09-10 13:38
本申请涉及数据处理技术领域,尤其公开了一种业务数据处理方法、装置、电子设备及存储介质,该方法包括:将待处理的用户数据输入至预先训练的机器学习模型,确定输出的用户所属的目标群体;通过如下方式确定机器学习模型的训练过程的目标训练样本:根据训练样本集合确定训练样本特征集合;将训练样本特征集合中的连续特征进行离散化处理,将离散化处理得到的离散特征和训练样本特征集合中的离散特征构成目标训练特征集合;针对目标训练特征集合中的任意一个离散特征,确定离散特征的分布差异指数;基于各个离散特征的分布差异指数对各个离散特征筛选,基于得到的基准特征集合确定目标训练样本集合。提高了划分用户所属的目标群体的准确性。体的准确性。体的准确性。

【技术实现步骤摘要】
一种业务数据处理方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种业务数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]业务人员在面对海量的用户数据时,需要快速精准的确定各个用户的特点和/或分类,以便针对各个用户制定有针对性的业务服务策略。
[0003]相关技术中,比如应用机器学习模型来确定各个用户的特点和/或分类。但是,用户数据有很多,同一个用户的数据也涉及到不同的维度,每个维度的数据可以作为样本的特征。对于业务人员来说,不同的样本特征对于区分各个用户的特点和/或分类来说,其重要重度是有差别的。如果直接将样本的特征用来对模型进行训练,导致训练的模型不准确,进而区分的用户的特点和/或分类不准确。

技术实现思路

[0004]本申请实施例提供一种业务数据处理方法、装置、电子设备及存储介质,用以提高根据用户数据划分用户所属的目标群体的准确性。
[0005]第一方面,本申请一实施例提供了一种业务数据处理方法,包括:
[0006]获取待处理的用户数据;所述用户数据包括用户基本信息和业务关联数据;
[0007]将所述待处理的用户数据输入至预先训练的机器学习模型,确定输出的所述用户所属的目标群体;
[0008]其中,通过如下方式确定所述机器学习模型的训练过程应用到的目标训练样本集合:
[0009]根据训练样本集合确定训练样本特征集合;其中,所述训练样本集合中的每个训练样本包括训练样本用户的基本信息和所述训练样本用户的业务关联数据;
[0010]将所述训练样本特征集合中的连续特征进行离散化处理,将离散化处理得到的离散特征和所述训练样本特征集合中的离散特征构成目标训练特征集合;
[0011]针对所述目标训练特征集合中的任意一个离散特征,确定所述离散特征的分布差异指数;其中,所述分布差异指数表征所述离散特征在正例样本与负例样本中的差异程度;所述正例样本为基本信息满足预设用户属性和/或所述业务关联数据满足预设业务属性的样本,所述负例样本为基本信息不满足预设用户属性且所述业务关联数据不满足预设业务属性的样本;
[0012]基于各个所述离散特征的分布差异指数对各个所述离散特征筛选,基于得到的基准特征集合确定目标训练样本集合。
[0013]在一些示例性的实施方式中,所述确定所述离散特征的分布差异指数,包括:
[0014]统计所有正例样本在所述离散特征上的第一取值计数向量,以及统计所有负例样本在所述离散特征上的第二取值计数向量;
[0015]根据所述第一取值计数向量和所述正例样本的总数确定所述正例样本在所述离散特征上的第一分布概率向量,以及根据所述第二取值计数向量和所述负例样本的总数确定所述负例样本在所述离散特征上的第二分布概率向量;
[0016]根据所述第一分布概率向量、所述第二分布概率向量,以及所述离散特征的不同取值的数量,确定所述离散特征的分布差异指数。
[0017]在一些示例性的实施方式中,所述统计所有正例样本在所述离散特征上的第一取值计数向量,包括:
[0018]针对所述离散特征的每个取值,确定所有所述正例样本中所述离散特征为所述取值的正例样本的第一数量;
[0019]将各个第一数量作为第一取值计数向量的元素,构成所述第一取值计数向量;
[0020]所述统计所有负例样本在所述离散特征上的第二取值计数向量,包括:
[0021]针对所述离散特征的每个取值,确定所有所述负例样本中所述离散特征为所述取值的负例样本的第二数量;
[0022]将各个第二数量作为第二取值计数向量的元素,构成所述第二取值计数向量。
[0023]在一些示例性的实施方式中,所述根据所述第一分布概率向量、所述第二分布概率向量,以及所述离散特征的不同取值的数量,确定所述离散特征的分布差异指数,包括:
[0024]针对每个取值,根据所述取值对应的第一数量在所述第一取值计数向量中的元素的位置,确定所述第一分布概率向量中的所述取值对应的第一概率;根据所述取值对应的第一数量在所述第一取值计数向量中的元素的位置,确定第二分布概率向量中的所述取值对应的第二概率;根据所述第一概率与所述第二概率的差值的绝对值,以及所述离散特征的不同取值的数量确定所述取值对应的参考指数;
[0025]将各个取值对应的参考指数的和确定为所述离散特征的分布差异指数。
[0026]在一些示例性的实施方式中,所述基于各个所述离散特征的分布差异指数对各个所述离散特征筛选,得到基准特征集合,包括:
[0027]选取分布差异指数大于预设指数阈值的离散特征构成基准特征集合;或
[0028]按照分布差异指数的大小选取预设数量的离散特征构成基准特征集合。
[0029]在一些示例性的实施方式中,所述基于得到的基准特征集合确定目标训练样本集合之后,还包括:
[0030]按照预设展示方式展示所述基准特征集合;
[0031]其中,针对任意一个基准特征,若所述基准特征对应的原始特征的特征取值的范围跨度大于预设阈值,则所述预设展示方式为折线对比图方式;若所述基准特征对应的原始特征的特征取值的范围跨度小于或等于预设阈值,则所述预设展示方式直方对比图方式;所述折线对比图以及所述直方对比图的横坐标为所述基准特征对应的取值,纵坐标为所述基准特征对应的第一概率分布向量中各个元素的取值以及第二概率分布向量中各个元素的取值。
[0032]在一些示例性的实施方式中,所述方法还包括:
[0033]针对任意一个目标测试样本的任意一个离散特征,基于所述机器模型对所述目标测试样本的预测结果确定所述目标测试样本在所述离散特征上的SHAP值;其中,所述目标测试样本为将测试样本经过离散化处理操作后得到的;所述测试样本包括测试样本用户的
基本信息和所述测试样本用户的业务关联数据;
[0034]对所有目标测试样本在所述离散特征上的SHAP值进行加权平均处理,得到所述离散特征与各个所述目标测试样本的预测结果的关联度;其中,所述关联度表征对应的离散特征在模型训练过程中的决策程度;
[0035]确定各个离散特征对应的关联度。
[0036]在一些示例性的实施方式中,所述基于所述机器模型对所述目标测试样本的预测结果确定所述目标测试样本在所述离散特征上的SHAP值之后,所述方法还包括:
[0037]针对任意一个所述离散特征,按照散点图展示方式展示各个目标测试样本的所述离散特征的预测结果;
[0038]其中,所述散点图的横坐标为所述离散特征的SHAP值,所述散点图的纵坐标为所述离散特征的取值;其中,所述散点图表征所述离散特征的各个取值对各个目标测试样本的所述离散特征的预测结果的影响程度。
[0039]第二方面,本申请一实施例提供了一种业务数据处理装置,包括:
[0040]数据获取模块,用于获取待处理的用户数据;所述用户数据包括用户基本信息和业务关联数据;...

【技术保护点】

【技术特征摘要】
1.一种业务数据处理方法,其特征在于,包括:获取待处理的用户数据;所述用户数据包括用户基本信息和业务关联数据;将所述待处理的用户数据输入至预先训练的机器学习模型,确定输出的所述用户所属的目标群体;其中,通过如下方式确定所述机器学习模型的训练过程应用到的目标训练样本集合:根据训练样本集合确定训练样本特征集合;其中,所述训练样本集合中的每个训练样本包括训练样本用户的基本信息和所述训练样本用户的业务关联数据;将所述训练样本特征集合中的连续特征进行离散化处理,将离散化处理得到的离散特征和所述训练样本特征集合中的离散特征构成目标训练特征集合;针对所述目标训练特征集合中的任意一个离散特征,确定所述离散特征的分布差异指数;其中,所述分布差异指数表征所述离散特征在正例样本与负例样本中的差异程度;所述正例样本为基本信息满足预设用户属性和/或所述业务关联数据满足预设业务属性的样本,所述负例样本为基本信息不满足预设用户属性且所述业务关联数据不满足预设业务属性的样本;基于各个所述离散特征的分布差异指数对各个所述离散特征筛选,基于得到的基准特征集合确定目标训练样本集合。2.根据权利要求1所述的方法,其特征在于,所述确定所述离散特征的分布差异指数,包括:统计所有正例样本在所述离散特征上的第一取值计数向量,以及统计所有负例样本在所述离散特征上的第二取值计数向量;根据所述第一取值计数向量和所述正例样本的总数确定所述正例样本在所述离散特征上的第一分布概率向量,以及根据所述第二取值计数向量和所述负例样本的总数确定所述负例样本在所述离散特征上的第二分布概率向量;根据所述第一分布概率向量、所述第二分布概率向量,以及所述离散特征的不同取值的数量,确定所述离散特征的分布差异指数。3.根据权利要求2所述的方法,其特征在于,所述统计所有正例样本在所述离散特征上的第一取值计数向量,包括:针对所述离散特征的每个取值,确定所有所述正例样本中所述离散特征为所述取值的正例样本的第一数量;将各个第一数量作为第一取值计数向量的元素,构成所述第一取值计数向量;所述统计所有负例样本在所述离散特征上的第二取值计数向量,包括:针对所述离散特征的每个取值,确定所有所述负例样本中所述离散特征为所述取值的负例样本的第二数量;将各个第二数量作为第二取值计数向量的元素,构成所述第二取值计数向量。4.根据权利要求2所述的方法,其特征在于,所述根据所述第一分布概率向量、所述第二分布概率向量,以及所述离散特征的不同取值的数量,确定所述离散特征的分布差异指数,包括:针对每个取值,根据所述取值对应的第一数量在所述第一取值计数向量中的元素的位置,确定所述第一分布概率向量中的所述取值对应的第一概率;根据所述取值对应的第一
数量在所述第一取值计数向量中的元素的位置,确定第二分布概率向量中的所述取值对应的第二概率;根据所述第一概率与所述第二概率的差值的绝对值,以及所述离散特征的不同取值的数量确定所述取值对应的参考指数;将各个取值对应的参考指数的和确定为所述离散特征的分布差异指数。5.根据权利要求1所述的方法,其特征在于,所述基于各个所述离散特征的分布差异指数对各个所述离散特征筛选,得到基准特征集合,包括:选取分布差异指数大于预设指数阈值的离散特征构成基准特征集合;或按照分布差异指数的大小选取预设数量的离散特征构成基准特征集合。6.根据权利要求1所述的方法,其特征在于,所述基于得到的基准特征集合确定目标训练样本集合之后,还包...

【专利技术属性】
技术研发人员:杨宇雪李虹锋曹清鑫
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1