样本筛选方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39249660 阅读:7 留言:0更新日期:2023-10-30 12:01
本发明专利技术公开了一种样本筛选方法、装置、电子设备及存储介质。其中,该样本筛选方法包括:获取第一模型对样本集中的样本的预测结果;样本集包括正样本集和负样本集;正样本中的样本表征换机用户的用户数据;负样本中的样本表征非换机用户的用户数据;第一模型基于样本集中的样本训练初始模型得到;预测结果表征用户发生换机行为的概率值;基于预测结果,从负样本集中筛选出目标负样本集;基于正样本集和目标负样本集,训练初始模型,得到第二模型;第二模型用于基于用户数据预测用户发生换机行为的概率值。概率值。概率值。

【技术实现步骤摘要】
样本筛选方法、装置、电子设备及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种样本筛选方法、装置、电子设备及存储介质。

技术介绍

[0002]通过对终端换机人群的准确预测,可以实现终端潜在客户的精准营销。目前,相关技术基于相似度对样本数据进行聚类,通过类中心来筛选代表性样本,用以训练预测模型。相关技术仅通过相似度来筛选样本数据,可能会将对模型训练有效的样本数据筛除掉,导致预测模型的预测准确率不高。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供了一种样本筛选方法、装置、电子设备及存储介质,旨在提高模型的预测准确率。
[0004]本专利技术实施例的技术方案是这样实现的:
[0005]第一方面,本专利技术实施例提供了一种样本筛选方法,该方法包括:
[0006]获取第一模型对样本集中的样本的预测结果;所述样本集包括正样本集和负样本集;所述正样本中的样本表征换机用户的用户数据;所述负样本中的样本表征非换机用户的用户数据;所述第一模型基于所述样本集中的样本训练初始模型得到;所述预测结果表征用户发生换机行为的概率值;
[0007]基于所述预测结果,从所述负样本集中筛选出目标负样本集;
[0008]基于所述正样本集和所述目标负样本集,训练所述初始模型,得到第二模型;所述第二模型用于基于用户数据预测用户发生换机行为的概率值。
[0009]在上述方案中,所述基于所述预测结果,从所述负样本集中筛选出目标负样本集,包括以下方案的至少一项:
[0010]基于所述预测结果,从所述负样本集中筛选概率密度函数的函数值小于第一设定值的负样本,以构建所述目标负样本集;所述概率密度函数表征所述正样本集中的正样本的预测结果对应的正态分布;
[0011]基于所述预测结果,根据设定的用于降低冗余度的筛选准则对所述负样本集进行筛选,得到所述目标负样本集;
[0012]基于所述预测结果,从所述负样本集中筛选稳定值小于第二设定值的负样本,以构建所述目标负样本集;所述稳定值表征添加数据扰动后的负样本与原负样本的预测结果之间的差值。
[0013]在上述方案中,在从所述负样本集中筛选目标负样本集时,若包括至少两项方案,所述方法还包括:
[0014]按照设定顺序执行所述至少两项方案;
[0015]在按照设定顺序执行所述至少两项方案时,将执行上一个方案所筛选得到的目标
负样本集,作为下一个方案对应的所述负样本集。
[0016]在上述方案中,所述从所述负样本集中筛选概率密度函数的函数值小于第一设定值的负样本,包括:
[0017]基于所述正样本集中的正样本的预测结果,确定所述正态分布的概率密度函数;
[0018]确定所述负样本集中的每个负样本对应的概率密度函数的函数值;
[0019]基于所述负样本集中的每个负样本对应的函数值,确定所述目标负样本集。
[0020]在上述方案中,在获取第一模型对样本集中的样本的预测结果之前,所述方法还包括:
[0021]从所述负样本集中选取第一设定数量的负样本与所述正样本集组成第一样本集;所述负样本集中不属于第一样本集的负样本组成第二样本集;
[0022]所述筛选准则包括:第一筛选准则和第二筛选准则,所述基于所述预测结果,根据设定的用于降低冗余度的筛选准则对所述负样本集进行筛选,得到所述目标负样本集,包括:
[0023]若所述预测结果为所述第一模型相应于所述第二样本集的输出,基于所述第一筛选准则和所述预测结果从所述第二样本集中获取第三样本集;其中,所述第一模型基于所述第一样本集和所述第二样本集训练得到,所述第一样本集的标注为正样本,所述第二样本集的标注为负样本;所述第三样本集中的样本表征所述第二样本集中预测结果对应的概率值小于第三设定值的样本;
[0024]以及,基于所述第二筛选准则和所述预测结果从所述第二样本集中获取第四样本集;其中,所述第一模型基于所述第一样本集训练得到;所述第四样本集中的样本的预测结果与预期结果的偏差值小于第四设定值;
[0025]基于所述第三样本集和所述第四样本集,对所述第一样本集和所述第二样本集中的样本进行更新;
[0026]基于更新后的所述第一样本集,获取所述目标负样本集。
[0027]在上述方案中,所述基于所述第三样本集和所述第四样本集,对所述第一样本集和所述第二样本集中的样本进行更新,包括:
[0028]确定所述第三样本集和所述第四样本集的交集;
[0029]基于所述交集,更新所述第一样本集和所述第二样本集。
[0030]在上述方案中,所述基于更新后的所述第一样本集,获取所述目标负样本集,包括:
[0031]在更新后的所述第一样本集中样本的数量大于或等于第五设定值的情况下,基于更新后的所述第一样本集中的负样本确定所述目标负样本集;
[0032]在更新后的所述第一样本集中样本的数量小于所述第五设定值的情况下,基于更新后的所述第一样本集和所述第二样本集重新获取所述第三样本集和所述第四样本集,根据重新获取的所述第三样本集和所述第四样本集再次对所述第一样本集和所述第二样本集进行更新,直至更新后的所述第一样本集中样本的数量大于或等于所述第五设定值。
[0033]在上述方案中,所述从所述负样本集中筛选稳定值小于第二设定值的负样本,以构建所述目标负样本集,包括:
[0034]从所述负样本集中选取第二设定数量的负样本训练自编码器;
[0035]基于训练完成的所述自编码器,生成所述负样本集中的每个负样本的数据扰动;
[0036]基于所述数据扰动确定对应的负样本的稳定值;
[0037]基于所述稳定值确定所述目标负样本集。
[0038]在上述方案中,所述从所述负样本集中选取第二设定数量的负样本训练自编码器,包括:
[0039]从所述目标负样本集中选取第二设定数量的负样本,以构建第五样本集;
[0040]基于设定优化方法确定所述第五样本集中的每个负样本的数据扰动;
[0041]基于所述第五样本集中的每个负样本对应的数据扰动,训练所述自编码器。第二方面,本专利技术实施例提供了一种样本筛选装置,该装置包括:
[0042]获取模块,用于获取第一模型对样本集中的样本的预测结果;所述样本集包括正样本集和负样本集;所述正样本中的样本表征换机用户的用户数据;所述负样本中的样本表征非换机用户的用户数据;所述第一模型基于所述样本集中的样本训练初始模型得到;所述预测结果表征用户发生换机行为的概率值;
[0043]筛选模块,用于基于所述预测结果,从所述负样本集中筛选出目标负样本集;
[0044]训练模块,用于基于所述正样本集和所述目标负样本集,训练所述初始模型,得到第二模型;所述第二模型用于基于用户数据预测用户发生换机行为的概率值。
[0045]第三方面,本专利技术实施例提供了一种电子设备,包括处理器和存储器,所述处理器和存储器相互连接,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本筛选方法,其特征在于,所述方法包括:获取第一模型对样本集中的样本的预测结果;所述样本集包括正样本集和负样本集;所述正样本中的样本表征换机用户的用户数据;所述负样本中的样本表征非换机用户的用户数据;所述第一模型基于所述样本集中的样本训练初始模型得到;所述预测结果表征用户发生换机行为的概率值;基于所述预测结果,从所述负样本集中筛选出目标负样本集;基于所述正样本集和所述目标负样本集,训练所述初始模型,得到第二模型;所述第二模型用于基于用户数据预测用户发生换机行为的概率值。2.根据权利要求1所述的方法,其特征在于,所述基于所述预测结果,从所述负样本集中筛选出目标负样本集,包括以下方案的至少一项:基于所述预测结果,从所述负样本集中筛选概率密度函数的函数值小于第一设定值的负样本,以构建所述目标负样本集;所述概率密度函数表征所述正样本集中的正样本的预测结果对应的正态分布;基于所述预测结果,根据设定的用于降低冗余度的筛选准则对所述负样本集进行筛选,得到所述目标负样本集;基于所述预测结果,从所述负样本集中筛选稳定值小于第二设定值的负样本,以构建所述目标负样本集;所述稳定值表征添加数据扰动后的负样本与原负样本的预测结果之间的差值。3.根据权利要求2所述的方法,其特征在于,在从所述负样本集中筛选目标负样本集时,若包括至少两项方案,所述方法还包括:按照设定顺序执行所述至少两项方案;在按照设定顺序执行所述至少两项方案时,将执行上一个方案所筛选得到的目标负样本集,作为下一个方案对应的所述负样本集。4.根据权利要求2所述的方法,其特征在于,所述从所述负样本集中筛选概率密度函数的函数值小于第一设定值的负样本,包括:基于所述正样本集中的正样本的预测结果,确定所述正态分布的概率密度函数;确定所述负样本集中的每个负样本对应的概率密度函数的函数值;基于所述负样本集中的每个负样本对应的函数值,确定所述目标负样本集。5.根据权利要求2所述的方法,其特征在于,在获取第一模型对样本集中的样本的预测结果之前,所述方法还包括:从所述负样本集中选取第一设定数量的负样本与所述正样本集组成第一样本集;所述负样本集中不属于第一样本集的负样本组成第二样本集;所述筛选准则包括:第一筛选准则和第二筛选准则,所述基于所述预测结果,根据设定的用于降低冗余度的筛选准则对所述负样本集进行筛选,得到所述目标负样本集,包括:若所述预测结果为所述第一模型相应于所述第二样本集的输出,基于所述第一筛选准则和所述预测结果从所述第二样本集中获取第三样本集;其中,所述第一模型基于所述第一样本集和所述第二样本集训练得到,所述第一样本集的标注为正样本,所述第二样本集的标注为负样本;所述第三样本集中的样本表征所述第二样本集中预测结果对应的概率值小于第三设定值的样本;
以及,基于所述第二筛选准则和所述预测结果从所述第二样本集中获取第四样本集;其中,所述第一模型基于所述第一样本集训练得到;所述第四样本集中的...

【专利技术属性】
技术研发人员:王础赵学峰郭曦煜纪春芳邱婉
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1