一种用户流失预测方法、装置及可读存储介质制造方法及图纸

技术编号:21400829 阅读:35 留言:0更新日期:2019-06-19 07:29
本发明专利技术实施例公开了一种用户流失预测方法、装置及可读存储介质。该方法包括:设备对样本向量进行训练以得到第一预测模型,再根据第一预测模型生成样本向量中多个特征样本的重要性排名,并获取重要性排名中前k个特征样本的交叉特征,根据交叉特征和样本向量更新第一预测模型得到最终的预测模型后,设备将待预测用户的第二训练特征输入到更新后的第一预测模型以预测待预测用户下一次登入目标应用距离这一次登入目标应用的时间。采用本申请实施例,能够提高预测模型的准确度,实现对用户流失的预测。

【技术实现步骤摘要】
一种用户流失预测方法、装置及可读存储介质
本专利技术涉及数据处理
,尤其涉及一种用户流失预测方法、装置及可读存储介质。
技术介绍
很多的网络服务以及在线游戏都面临了在开始的几分钟或几小时内出现大量用户流失的情况,为了减少用户流失,可以对用户的流失进行预测,从而为不同的用户制定不同的策略,提高用户的游戏体验。现有的流失预测方法多采用核心指标波动或者采用逻辑回归、决策树等方法,核心指标主要指游戏时长、关卡失败率等发生较大变动时则认为用户即将流失,逻辑回归、决策树主要指根据用户历史行为利用逻辑回归或者决策树来进行预测用户是否即将流失。然而,这两种方式覆盖面较窄,预测准确度不高。因此,如何更精准地预测用户流失情况是本
人员正在研究的问题。
技术实现思路
本专利技术实施例公开了一种用户流失预测方法、装置及可读存储介质,能够实现对用户流失的预测,并提高预测模型的准确度。第一方面,本专利技术实施例提供了一种用户流失预测方法,该方法包括:对样本向量进行训练以得到第一预测模型,其中,所述样本向量包括多个特征样本,所述多个特征样本中每个特征样本包括第一训练特征和用户标签,所述第一训练特征为在预设用户的原始数据中提取的特征,所述原始数据包括画像数据和操作目标应用时的行为数据;所述用户标签用于描述所述预设用户下一次登入所述目标应用距离这一次登入所述目标应用的时间,所述第一预测模型用于对所述多个特征样本的重要性进行排名;根据所述第一预测模型生成所述样本向量中多个特征样本的重要性排名,并获取所述重要性排名中前k个特征样本的交叉特征,所述交叉特征为所述前k个特征样本进行数学运算所得到的特征;根据所述交叉特征和所述样本向量更新所述第一预测模型;从待预测用户在登入所述目标应用的预设时段内的所述原始数据中提取第二训练特征,将所述第二训练特征输入到更新后的所述第一预测模型,以预测所述待预测用户下一次登入所述目标应用距离这一次登入所述目标应用的时间。在上述方法中,设备对样本向量进行训练以得到第一预测模型,再根据第一预测模型生成样本向量中多个特征样本的重要性排名,并获取重要性排名中前k个特征样本的交叉特征,根据交叉特征和样本向量更新第一预测模型得到最终的预测模型,以预测待预测用户下一次登入目标应用距离这一次登入目标应用的时间;这种通过获取特征重要性排名中前k个特征样本的交叉特征来训练模型的方式,能够扩大重要特征的覆盖率,从而提高预测模型的准确度,实现对用户流失的预测。基于第一方面,在其中一种可选的实现方式中,所述对样本向量进行训练以得到第一预测模型,包括:获取样本向量;根据所述样本向量生成训练集,并训练所述训练集以得到第一预测模型;其中,所述训练集中包括多个特征样本,所述多个特征样本中的每个特征样本为所述样本向量中的特征样本。这种实现方式通过对获取的样本向量进行再次筛选,提高了特征样本的质量,从而提高模型的准确度。基于第一方面,在其中一种可选的实现方式中,所述根据所述样本向量生成训练集,包括:所述样本向量包括正样本和负样本,所述正样本为所述多个特征样本中包含预设字段的样本,所述负样本为所述多个特征样本中不包含所述预设字段的样本,若所述正样本与所述负样本的比值超过预设范围,则对所述负样本进行下采样,以使所述训练集中的所述正样本与所述负样本的比值在预设范围之内。这种实现方式设置了训练集中正负样本的比例,在训练模型的过程中合理的正负样本比例能够提高模型的精确度。基于第一方面,在其中一种可选的实现方式中,所述根据所述第一预测模型生成所述多个特征样本的重要性排名,包括:根据所述第一预测模型预测的结果,计算所述多个特征样本的精确度和召回率,所述重要性排名中的每个特征样本的精确度大于预设阈值,且召回率越大,在所述重要性排名中的名次越前。基于第一方面,在其中一种可选的实现方式中,所述预设时段不超过两个小时。这种实现方式提供了小时级的预测时间,即能够只利用用户登录后的两个小时内或更短时间的数据来预测用户是否流失,更高效的提供了预测结果,使设备能够更快的提供适合于待预测用户的个性化服务。第二方面,本专利技术实施例提供了一种用户流失预测装置,该装置包括:训练单元,用于对样本向量进行训练以得到第一预测模型,其中,所述样本向量包括多个特征样本,所述多个特征样本中每个特征样本包括第一训练特征和用户标签,所述第一训练特征为在预设用户的原始数据中提取的特征,所述原始数据包括画像数据和操作目标应用时的行为数据;所述用户标签用于描述所述预设用户下一次登入所述目标应用距离这一次登入所述目标应用的时间,所述第一预测模型用于对所述多个特征样本的重要性进行排名;获取单元,用于根据所述第一预测模型生成所述样本向量中多个特征样本的重要性排名,并获取所述重要性排名中前k个特征样本的交叉特征,所述交叉特征为所述前k个特征样本进行数学运算所得到的特征;更新单元,用于根据所述交叉特征和所述样本向量更新所述第一预测模型;预测单元,从待预测用户在登入所述目标应用的预设时段内的所述原始数据中提取第二训练特征,将所述第二训练特征输入到更新后的所述第一预测模型,以预测所述待预测用户下一次登入所述目标应用距离这一次登入所述目标应用的时间。基于第二方面,在其中一种实现方式中,所述训练单元包括:获取子单元,用于获取样本向量;训练子单元,用于根据所述样本向量生成训练集,并训练所述训练集以得到第一预测模型;其中,所述训练集中包括多个特征样本,所述多个特征样本中的每个特征样本为所述样本向量中的特征样本。基于第二方面,在其中一种实现方式中,所述样本向量包括正样本和负样本,所述正样本为所述多个特征样本中包含预设字段的样本,所述负样本为所述多个特征样本中不包含所述预设字段的样本;所述获取子单元还包括:采样单元,用于若所述正样本与所述负样本的比值超过预设范围,则对所述负样本进行下采样,以使所述训练集中的所述正样本与所述负样本的比值在预设范围之内。基于第二方面,在其中一种实现方式中,所述获取单元还包括:计算单元,用于根据所述第一预测模型预测的结果,计算所述多个特征样本的精确度和召回率,所述重要性排名中的每个特征样本的精确度大于预设阈值,且召回率越大,在所述重要性排名中的名次越前。基于第二方面,在其中一种实现方式中,所述预设时段不超过两个小时。需要说明的是,第二方面的实现方式及相应的有益效果可以参照第一方面以及相应实现方式中的描述,此处不再赘述。第三方面,本专利技术实施例公开了一种计算机可读存储介质,所述计算机存储介质存储有程序指令,所述程序指令当被处理器执行时使所述处理器执行第一方面或者第一方面的任意可能的实现方式所描述的方法。需要说明的是,第三方面的实现方式及相应的有益效果可以参照第一方面以及相应实现方式中的描述,此处不再赘述。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对本专利技术实施例或
技术介绍
中所需要使用的附图作简单地介绍。图1是本专利技术实施例提供的一种用户流失预测设备的结构示意图;图2是本专利技术实施例提供的一种用户流失预测方法的流程示意图;图3是本专利技术实施例提供的一种用户流失预测装置的结构示意图。具体实施方式下面将结合附图对本专利技术实施例中的技术方案进行描述。应当理解,在此本申请说明书中所使用的术语仅仅是本文档来自技高网
...

【技术保护点】
1.一种用户流失预测方法,其特征在于,包括:对样本向量进行训练以得到第一预测模型,其中,所述样本向量包括多个特征样本,所述多个特征样本中每个特征样本包括第一训练特征和用户标签,所述第一训练特征为在预设用户的原始数据中提取的特征,所述原始数据包括画像数据和操作目标应用时的行为数据;所述用户标签用于描述所述预设用户下一次登入所述目标应用距离这一次登入所述目标应用的时间,所述第一预测模型用于对所述多个特征样本的重要性进行排名;根据所述第一预测模型生成所述样本向量中多个特征样本的重要性排名,并获取所述重要性排名中前k个特征样本的交叉特征,所述交叉特征为所述前k个特征样本进行数学运算所得到的特征;根据所述交叉特征和所述样本向量更新所述第一预测模型;从待预测用户在登入所述目标应用的预设时段内的所述原始数据中提取第二训练特征,将所述第二训练特征输入到更新后的所述第一预测模型,以预测所述待预测用户下一次登入所述目标应用距离这一次登入所述目标应用的时间。

【技术特征摘要】
2018.12.25 CN 20181159644211.一种用户流失预测方法,其特征在于,包括:对样本向量进行训练以得到第一预测模型,其中,所述样本向量包括多个特征样本,所述多个特征样本中每个特征样本包括第一训练特征和用户标签,所述第一训练特征为在预设用户的原始数据中提取的特征,所述原始数据包括画像数据和操作目标应用时的行为数据;所述用户标签用于描述所述预设用户下一次登入所述目标应用距离这一次登入所述目标应用的时间,所述第一预测模型用于对所述多个特征样本的重要性进行排名;根据所述第一预测模型生成所述样本向量中多个特征样本的重要性排名,并获取所述重要性排名中前k个特征样本的交叉特征,所述交叉特征为所述前k个特征样本进行数学运算所得到的特征;根据所述交叉特征和所述样本向量更新所述第一预测模型;从待预测用户在登入所述目标应用的预设时段内的所述原始数据中提取第二训练特征,将所述第二训练特征输入到更新后的所述第一预测模型,以预测所述待预测用户下一次登入所述目标应用距离这一次登入所述目标应用的时间。2.根据权利要求1所述的方法,其特征在于,所述对样本向量进行训练以得到第一预测模型,包括:获取样本向量;根据所述样本向量生成训练集,并训练所述训练集以得到第一预测模型;其中,所述训练集中包括多个特征样本,所述多个特征样本中的每个特征样本为所述样本向量中的特征样本。3.根据权利要求2所述的方法,其特征在于,所述根据所述样本向量生成训练集,包括:所述样本向量包括正样本和负样本,所述正样本为所述多个特征样本中包含预设字段的样本,所述负样本为所述多个特征样本中不包含所述预设字段的样本,若所述正样本与所述负样本的比值超过预设范围,则对所述负样本进行下采样,以使所述训练集中的所述正样本与所述负样本的比值在预设范围之内。4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述第一预测模型生成所述多个特征样本的重要性排名,包括:根据所述第一预测模型预测的结果,计算所述多个特征样本的精确度和召回率,所述重要性排名中的每个特征样本的精确度大于预设阈值,且召回率越大,在所述重要性排名中的名次越前。5.根据权利要求1-3任一项所述的方法,其特征在于,所述预设时段不超过两个小...

【专利技术属性】
技术研发人员:苏杰马志伟
申请(专利权)人:深圳市梦域科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1