一种业务数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：34881621 阅读：17 留言：0更新日期：2022-09-10 13:38

本申请涉及数据处理技术领域，尤其公开了一种业务数据处理方法、装置、电子设备及存储介质，该方法包括：将待处理的用户数据输入至预先训练的机器学习模型，确定输出的用户所属的目标群体；通过如下方式确定机器学习模型的训练过程的目标训练样本：根据训练样本集合确定训练样本特征集合；将训练样本特征集合中的连续特征进行离散化处理，将离散化处理得到的离散特征和训练样本特征集合中的离散特征构成目标训练特征集合；针对目标训练特征集合中的任意一个离散特征，确定离散特征的分布差异指数；基于各个离散特征的分布差异指数对各个离散特征筛选，基于得到的基准特征集合确定目标训练样本集合。提高了划分用户所属的目标群体的准确性。体的准确性。体的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种业务数据处理方法、装置、电子设备及存储介质

[0001]本申请涉及数据处理
，尤其涉及一种业务数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]业务人员在面对海量的用户数据时，需要快速精准的确定各个用户的特点和/或分类，以便针对各个用户制定有针对性的业务服务策略。
[0003]相关技术中，比如应用机器学习模型来确定各个用户的特点和/或分类。但是，用户数据有很多，同一个用户的数据也涉及到不同的维度，每个维度的数据可以作为样本的特征。对于业务人员来说，不同的样本特征对于区分各个用户的特点和/或分类来说，其重要重度是有差别的。如果直接将样本的特征用来对模型进行训练，导致训练的模型不准确，进而区分的用户的特点和/或分类不准确。

技术实现思路

[0004]本申请实施例提供一种业务数据处理方法、装置、电子设备及存储介质，用以提高根据用户数据划分用户所属的目标群体的准确性。
[0005]第一方面，本申请一实施例提供了一种业务数据处理方法，包括：
[0006]获取待处理的用户数据；所述用户数据包括用户基本信息和业务关联数据；
[0007]将所述待处理的用户数据输入至预先训练的机器学习模型，确定输出的所述用户所属的目标群体；
[0008]其中，通过如下方式确定所述机器学习模型的训练过程应用到的目标训练样本集合：
[0009]根据训练样本集合确定训练样本特征集合；其中，所述训练样本集合中的每个训练样本包括训练样本用户的基本信息和所述训练样本用户的业务

【技术保护点】

【技术特征摘要】
1.一种业务数据处理方法，其特征在于，包括：获取待处理的用户数据；所述用户数据包括用户基本信息和业务关联数据；将所述待处理的用户数据输入至预先训练的机器学习模型，确定输出的所述用户所属的目标群体；其中，通过如下方式确定所述机器学习模型的训练过程应用到的目标训练样本集合：根据训练样本集合确定训练样本特征集合；其中，所述训练样本集合中的每个训练样本包括训练样本用户的基本信息和所述训练样本用户的业务关联数据；将所述训练样本特征集合中的连续特征进行离散化处理，将离散化处理得到的离散特征和所述训练样本特征集合中的离散特征构成目标训练特征集合；针对所述目标训练特征集合中的任意一个离散特征，确定所述离散特征的分布差异指数；其中，所述分布差异指数表征所述离散特征在正例样本与负例样本中的差异程度；所述正例样本为基本信息满足预设用户属性和/或所述业务关联数据满足预设业务属性的样本，所述负例样本为基本信息不满足预设用户属性且所述业务关联数据不满足预设业务属性的样本；基于各个所述离散特征的分布差异指数对各个所述离散特征筛选，基于得到的基准特征集合确定目标训练样本集合。2.根据权利要求1所述的方法，其特征在于，所述确定所述离散特征的分布差异指数，包括：统计所有正例样本在所述离散特征上的第一取值计数向量，以及统计所有负例样本在所述离散特征上的第二取值计数向量；根据所述第一取值计数向量和所述正例样本的总数确定所述正例样本在所述离散特征上的第一分布概率向量，以及根据所述第二取值计数向量和所述负例样本的总数确定所述负例样本在所述离散特征上的第二分布概率向量；根据所述第一分布概率向量、所述第二分布概率向量，以及所述离散特征的不同取值的数量，确定所述离散特征的分布差异指数。3.根据权利要求2所述的方法，其特征在于，所述统计所有正例样本在所述离散特征上的第一取值计数向量，包括：针对所述离散特征的每个取值，确定所有所述正例样本中所述离散特征为所述取值的正例样本的第一数量；将各个第一数量作为第一取值计数向量的元素，构成所述第一取值计数向量；所述统计所有负例样本在所述离散特征上的第二取值计数向量，包括：针对所述离散特征的每个取值，确定所有所述负例样本中所述离散特征为所述取值的负例样本的第二数量；将各个第二数量作为第二取值计数向量的元素，构成所述第二取值计数向量。4.根据权利要求2所述的方法，其特征在于，所述根据所述第一分布概率向量、所述第二分布概率向量，以及所述离散特征的不同取值的数量，确定所述离散特征的分布差异指数，包括：针对每个取值，根据所述取值对应的第一数量在所述第一取值计数向量中的元素的位置，确定所述第一分布概率向量中的所述取值对应的第一概率；根据所述取值对应的第一
数量在所述第一取值计数向量中的元素的位置，确定第二分布概率向量中的所述取值对应的第二概率；根据所述第一概率与所述第二概率的差值的绝对值，以及所述离散特征的不同取值的数量确定所述取值对应的参考指数；将各个取值对应的参考指数的和确定为所述离散特征的分布差异指数。5.根据权利要求1所述的方法，其特征在于，所述基于各个所述离散特征的分布差异指数对各个所述离散特征筛选，得到基准特征集合，包括：选取分布差异指数大于预设指数阈值的离散特征构成基准特征集合；或按照分布差异指数的大小选取预设数量的离散特征构成基准特征集合。6.根据权利要求1所述的方法，其特征在于，所述基于得到的基准特征集合确定目标训练样本集合之后，还包...

【专利技术属性】
技术研发人员：杨宇雪，李虹锋，曹清鑫，
申请(专利权)人：建信金融科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人