【技术实现步骤摘要】
样本筛选方法、装置、电子设备及存储介质
[0001]本专利技术涉及计算机
,尤其涉及一种样本筛选方法、装置、电子设备及存储介质。
技术介绍
[0002]通过对终端换机人群的准确预测,可以实现终端潜在客户的精准营销。目前,相关技术基于相似度对样本数据进行聚类,通过类中心来筛选代表性样本,用以训练预测模型。相关技术仅通过相似度来筛选样本数据,可能会将对模型训练有效的样本数据筛除掉,导致预测模型的预测准确率不高。
技术实现思路
[0003]有鉴于此,本专利技术实施例提供了一种样本筛选方法、装置、电子设备及存储介质,旨在提高模型的预测准确率。
[0004]本专利技术实施例的技术方案是这样实现的:
[0005]第一方面,本专利技术实施例提供了一种样本筛选方法,该方法包括:
[0006]获取第一模型对样本集中的样本的预测结果;所述样本集包括正样本集和负样本集;所述正样本中的样本表征换机用户的用户数据;所述负样本中的样本表征非换机用户的用户数据;所述第一模型基于所述样本集中的样本训练初始模型得到;所述预测结果表征用户发生换机行为的概率值;
[0007]基于所述预测结果,从所述负样本集中筛选出目标负样本集;
[0008]基于所述正样本集和所述目标负样本集,训练所述初始模型,得到第二模型;所述第二模型用于基于用户数据预测用户发生换机行为的概率值。
[0009]在上述方案中,所述基于所述预测结果,从所述负样本集中筛选出目标负样本集,包括以下方案的至少一项:
[ ...
【技术保护点】
【技术特征摘要】
1.一种样本筛选方法,其特征在于,所述方法包括:获取第一模型对样本集中的样本的预测结果;所述样本集包括正样本集和负样本集;所述正样本中的样本表征换机用户的用户数据;所述负样本中的样本表征非换机用户的用户数据;所述第一模型基于所述样本集中的样本训练初始模型得到;所述预测结果表征用户发生换机行为的概率值;基于所述预测结果,从所述负样本集中筛选出目标负样本集;基于所述正样本集和所述目标负样本集,训练所述初始模型,得到第二模型;所述第二模型用于基于用户数据预测用户发生换机行为的概率值。2.根据权利要求1所述的方法,其特征在于,所述基于所述预测结果,从所述负样本集中筛选出目标负样本集,包括以下方案的至少一项:基于所述预测结果,从所述负样本集中筛选概率密度函数的函数值小于第一设定值的负样本,以构建所述目标负样本集;所述概率密度函数表征所述正样本集中的正样本的预测结果对应的正态分布;基于所述预测结果,根据设定的用于降低冗余度的筛选准则对所述负样本集进行筛选,得到所述目标负样本集;基于所述预测结果,从所述负样本集中筛选稳定值小于第二设定值的负样本,以构建所述目标负样本集;所述稳定值表征添加数据扰动后的负样本与原负样本的预测结果之间的差值。3.根据权利要求2所述的方法,其特征在于,在从所述负样本集中筛选目标负样本集时,若包括至少两项方案,所述方法还包括:按照设定顺序执行所述至少两项方案;在按照设定顺序执行所述至少两项方案时,将执行上一个方案所筛选得到的目标负样本集,作为下一个方案对应的所述负样本集。4.根据权利要求2所述的方法,其特征在于,所述从所述负样本集中筛选概率密度函数的函数值小于第一设定值的负样本,包括:基于所述正样本集中的正样本的预测结果,确定所述正态分布的概率密度函数;确定所述负样本集中的每个负样本对应的概率密度函数的函数值;基于所述负样本集中的每个负样本对应的函数值,确定所述目标负样本集。5.根据权利要求2所述的方法,其特征在于,在获取第一模型对样本集中的样本的预测结果之前,所述方法还包括:从所述负样本集中选取第一设定数量的负样本与所述正样本集组成第一样本集;所述负样本集中不属于第一样本集的负样本组成第二样本集;所述筛选准则包括:第一筛选准则和第二筛选准则,所述基于所述预测结果,根据设定的用于降低冗余度的筛选准则对所述负样本集进行筛选,得到所述目标负样本集,包括:若所述预测结果为所述第一模型相应于所述第二样本集的输出,基于所述第一筛选准则和所述预测结果从所述第二样本集中获取第三样本集;其中,所述第一模型基于所述第一样本集和所述第二样本集训练得到,所述第一样本集的标注为正样本,所述第二样本集的标注为负样本;所述第三样本集中的样本表征所述第二样本集中预测结果对应的概率值小于第三设定值的样本;
以及,基于所述第二筛选准则和所述预测结果从所述第二样本集中获取第四样本集;其中,所述第一模型基于所述第一样本集训练得到;所述第四样本集中的...
【专利技术属性】
技术研发人员:王础,赵学峰,郭曦煜,纪春芳,邱婉,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。