一种基于大数据的用户行为异常检测方法技术

技术编号:38578784 阅读:15 留言:0更新日期:2023-08-26 23:25
本申请提供一种基于大数据的用户行为异常检测方法,包括:根据平台用户的访问数据,计算网课平台用户回流率;根据用户回流率,计算网课平台正常流失周期的取值范围;根据正常流失周期的取值范围,判断网课平台异常流失周期并统计彻底流失用户的数据;根据异常流失周期和彻底流失用户的数据,得到异常流失用户的分布信息;根据异常流失周期,统计异常流失用户的流向分布和对手平台的策略;根据异常流失用户的分布信息和流向,找出网课平台用户异常流失和对手平台策略的关联;根据正常流失周期的取值范围,获取网课平台以往的对流策略;根据异常流失和对手平台策略的关联以及以往对流策略,提出对流策略。提出对流策略。提出对流策略。

【技术实现步骤摘要】
一种基于大数据的用户行为异常检测方法


[0001]本专利技术涉及信息
,尤其涉及一种基于大数据的用户行为异常检测方法。

技术介绍

[0002]网课平台用户流失异常会导致平台用户数量、平台热度以及营业额下降等损失,及时发现用户流失异常并制定针对性策略能够有效挽回用户流失异常带来的损失;如果不能及时发现网课平台用户流失异常,找出异常流失用户的分布信息和流向并制定针对性策略,会导致用户异常流失持续扩大,并带来更大的损失;网课平台的用户流失具有周期性,用户流失异常会体现在其流失周期的异常上,通过网课平台流失周期的异常检测,能够及时发现用户流失异常;目前尚未有针对网课平台流失周期异常的检测方法研究;通过大数据收集,对异常流失用户的分布信息和流向,以及流失周期异常期间对手平台策略的研究,能够帮助网课平台决策者针对用户异常流失制定相应的策略,挽回用户异常流失的损失;因此,本申请拟提出一种通过大数据收集信息数据,检测网课平台用户流失周期异常,并向决策者提供辅助决策信息的方法,以解决难以检测网课平台用户流失异常以及难以制定针对性策略的问题;

技术实现思路

[0003]本专利技术提供了一种基于大数据的用户行为异常检测方法,主要包括:
[0004]根据平台用户的访问数据,计算网课平台用户回流率;根据用户回流率,计算网课平台正常流失周期的取值范围,具体包括:对用户回流率曲线拐点映射值进行正态拟合,确定网课平台用户正常流失周期的取值范围;根据正常流失周期的取值范围,判断网课平台异常流失周期并统计彻底流失用户的数据;根据异常流失周期和彻底流失用户的数据,得到异常流失用户的分布信息,所述根据异常流失周期和彻底流失用户的数据,得到异常流失用户的分布信息,具体包括:根据彻底流失用户的信息集合,计算网课平台不同用户之间的相似度权值,使用Rock聚类算法进行用户聚类分析,得到彻底流失用户的分布信息;根据异常流失周期,统计异常流失用户的流向分布和对手平台的策略,具体包括:构建网课平台的竞争关系网络;根据异常流失用户的分布信息和流向,找出网课平台用户异常流失和对手平台策略的关联;根据正常流失周期的取值范围,获取网课平台以往的对流策略;根据异常流失和对手平台策略的关联以及以往对流策略,提出对流策略。
[0005]进一步可选地,所述根据平台用户的访问数据,计算网课平台用户回流率包括:
[0006]利用SQL查询从网课平台数据库获取所有日期平台用户的访问数据;所获取的访问数据为某一日期内,用户是否访问了网课平台;以用户某一次访问平台后连续未访问平台的天数作为该用户本次访问的流失天数;根据平台用户的访问数据,计算并统计所有用户的每一次访问的流失天数;以每一日期访问了平台的用户数量作为这一日期平台的流失用户数;统计所有日期的流失用户数;根据流失天数的统计,以剔除明显异常数据后流失天数的取值范围作为流失期限的预取值范围;根据流失期限的预取值范围,以一天为间隔,设
置不同的流失期限;以用户访问的流失天数小于某一具体的流失期限作为用户回流的判断依据;根据用户是否回流的判断,统计不同流失期限下所有日期的回流用户数;根据回流率计算公式,计算所有日期中不同流失期限下的用户回流率。
[0007]进一步可选地,所述根据用户回流率,计算网课平台正常流失周期的取值范围包括:
[0008]根据用户回流率,绘制每一日期中,回流率和流失期限的二元关系图和关系表,得到回流率曲线;根据绘制的回流率和流失期限的二元关系图,以某一日期流失期限增长时,网课平台用户回流率最终趋近的值作为用户最终回流率;剔除异常的用户最终回流率数据,以其余所有日期的最终回流率的最小值作为用户最终回流率的最低阈值;以回流率超过用户最终回流率的最低阈值且回流率增长率低于最低增长率作为回流率曲线出现拐点的判断依据;根据回流率曲线出现拐点的判断依据,统计所有日期回流率曲线的拐点映射的流失期限;对拐点映射的流失期限值进行正态拟合,确定网课平台正常流失周期的取值范围;包括:对用户回流率曲线拐点映射值进行正态拟合,确定网课平台用户正常流失周期的取值范围;
[0009]所述对用户回流率曲线拐点映射值进行正态拟合,确定网课平台用户正常流失周期的取值范围,具体包括:
[0010]根据回流率计算,制作网课平台在不同日期中,回流率和流失期限的二元关系图及关系表,得到回流率曲线;根据网课平台回流率增长的数据统计和分析,在用户回流率超过最低阈值后,若增长率低于某一数值,则判定为回流率出现拐点;将回流率高于必须超过的用户最终回流率最低阈值且增长率低于这一数值作为回流曲线出现拐点的判断依据;找出每一个日期用户回流率曲线图的拐点,统计对应的流失期限;剔除未出现拐点的用户回流曲线图的相应数据;根据统计的拐点对应流失期限的数据,拟合正态分布曲线;根据正态分布曲线,找出符合网课平台用户流失数据的最合适的流失期限;以该流失期限作为网课平台用户流失的最佳流失周期;同时,根据正态分布一倍标准差计算,确定网课平台正常流失周期的取值范围。
[0011]进一步可选地,所述根据正常流失周期的取值范围,判断网课平台异常流失周期并统计彻底流失用户的数据包括:
[0012]根据用户正常流失周期的取值范围,以某一日期用户最终回流率低于最低阈值或者回流率曲线图拐点对应的流失期限超出正常流失周期的取值范围作为网课平台流失周期异常的检测标准;剔除未出现拐点的回流率数据;根据检测标准对平台所有日期的用户流失周期进行检测;筛选出所有用户流失周期异常的日期数据;以用户某一次访问之后一个正常流失周期取值范围内,用户未再次访问平台作为用户彻底流失的判断依据;筛选并统计出所有日期的彻底流失用户;分别统计正常流失周期和每一个异常流失周期的彻底流失用户的数据;所统计的彻底流失用户的数据为用户的唯一标识,学习目的以及用户类型。
[0013]进一步可选地,所述根据异常流失周期和彻底流失用户的数据,得到异常流失用户的分布信息包括:
[0014]以所统计到的网课平台彻底流失用户的数据作为用户信息集合;使用改进的相似度权值计算方法,以彻底流失用户的信息集合作为事务集,分别计算出网课平台正常流失周期以及每一个异常流失周期的彻底流失用户之间的相似度权值;以用户作为点,用户之
间的相似度权值作为边,制作用户相似度权值的无向图;使用Kruskal算法,计算不同用户之间的最大相似权值,得到用户最大相似权值的无向图;使用Rock聚类算法对所统计的用户最大相似权值无向图进行聚类分析,得到网课平台正常流失周期和每一个异常流失周期彻底流失用户的信息聚类数据;所述信息聚类数据为按照聚类大小进行排序的网课平台彻底流失用户的用户信息聚类;以信息聚类数据作为网课平台异常流失用户的分布信息;所述异常流失用户的分布信息为按照人数由多到少进行排序的异常流失用户聚类,以及聚类对应的用户学习目的和用户类型的信息集合;计算异常流失周期彻底流失用户的信息聚类数据和正常流失周期彻底流失用户的信息聚类数据的差集;以差集作为网课平台异常用户流失周期的异常流失用户的信息聚类数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的用户行为异常检测方法,其特征在于,所述方法包括:根据平台用户的访问数据,计算网课平台用户回流率;根据用户回流率,计算网课平台正常流失周期的取值范围,具体包括:对用户回流率曲线拐点映射值进行正态拟合,确定网课平台用户正常流失周期的取值范围;根据正常流失周期的取值范围,判断网课平台异常流失周期并统计彻底流失用户的数据;根据异常流失周期和彻底流失用户的数据,得到异常流失用户的分布信息,所述根据异常流失周期和彻底流失用户的数据,得到异常流失用户的分布信息,具体包括:根据彻底流失用户的信息集合,计算网课平台不同用户之间的相似度权值,使用Rock聚类算法进行用户聚类分析,得到彻底流失用户的分布信息;根据异常流失周期,统计异常流失用户的流向分布和对手平台的策略,具体包括:构建网课平台的竞争关系网络;根据异常流失用户的分布信息和流向,找出网课平台用户异常流失和对手平台策略的关联;根据正常流失周期的取值范围,获取网课平台以往的对流策略;根据异常流失和对手平台策略的关联以及以往对流策略,提出对流策略。2.根据权利要求1所述的方法,其中,所述根据平台用户的访问数据,计算网课平台用户回流率,包括:利用SQL查询从网课平台数据库获取所有日期平台用户的访问数据;所获取的访问数据为某一日期内,用户是否访问了网课平台;以用户某一次访问平台后连续未访问平台的天数作为该用户本次访问的流失天数;根据平台用户的访问数据,计算并统计所有用户的每一次访问的流失天数;以每一日期访问了平台的用户数量作为这一日期平台的流失用户数;统计所有日期的流失用户数;根据流失天数的统计,以剔除明显异常数据后流失天数的取值范围作为流失期限的预取值范围;根据流失期限的预取值范围,以一天为间隔,设置不同的流失期限;以用户访问的流失天数小于某一具体的流失期限作为用户回流的判断依据;根据用户是否回流的判断,统计不同流失期限下所有日期的回流用户数;根据回流率计算公式,计算所有日期中不同流失期限下的用户回流率。3.根据权利要求1所述的方法,其中,所述根据用户回流率,计算网课平台正常流失周期的取值范围,包括:根据用户回流率,绘制每一日期中,回流率和流失期限的二元关系图和关系表,得到回流率曲线;根据绘制的回流率和流失期限的二元关系图,以某一日期流失期限增长时,网课平台用户回流率最终趋近的值作为用户最终回流率;剔除异常的用户最终回流率数据,以其余所有日期的最终回流率的最小值作为用户最终回流率的最低阈值;以回流率超过用户最终回流率的最低阈值且回流率增长率低于最低增长率作为回流率曲线出现拐点的判断依据;根据回流率曲线出现拐点的判断依据,统计所有日期回流率曲线的拐点映射的流失期限;对拐点映射的流失期限值进行正态拟合,确定网课平台正常流失周期的取值范围;包括:对用户回流率曲线拐点映射值进行正态拟合,确定网课平台用户正常流失周期的取值范围;所述对用户回流率曲线拐点映射值进行正态拟合,确定网课平台用户正常流失周期的取值范围,具体包括:根据回流率计算,制作网课平台在不同日期中,回流率和流失期限的二元关系图及关系表,得到回流率曲线;根据网课平台回流率增长的数据统计和分析,在用户回流率超过最低阈值后,若增长率低于某一数值,则判定为回流率出现拐点;将回流率高于必须超过的用
户最终回流率最低阈值且增长率低于这一数值作为回流曲线出现拐点的判断依据;找出每一个日期用户回流率曲线图的拐点,统计对应的流失期限;剔除未出现拐点的用户回流曲线图的相应数据;根据统计的拐点对应流失期限的数据,拟合正态分布曲线;根据正态分布曲线,找出符合网课平台用户流失数据的最合适的流失期限;以该流失期限作为网课平台用户流失的最佳流失周期;同时,根据正态分布一倍标准差计算,确定网课平台正常流失周期的取值范围。4.根据权利要求1所述的方法,其中,所述根据正常流失周期的取值范围,判断网课平台异常流失周期并统计彻底流失用户的数据,包括:根据用户正常流失周期的取值范围,以某一日期用户最终回流率低于最低阈值或者回流率曲线图拐点对应的流失期限超出正常流失周期的取值范围作为网课平台流失周期异常的检测标准;剔除未出现拐点的回流率数据;根据检测标准对平台所有日期的用户流失周期进行检测;筛选出所有用户流失周期异常的日期数据;以用户某一次访问之后一个正常流失周期取值范围内,用户未再次访问平台作为用户彻底流失的判断依据;筛选并统计出所有日期的彻底流失用户;分别统计正常流失周期和每一个异常流失周期的彻底流失用户的数据;所统计的彻底流失用户的数据为用户的唯一标识,学习目的以及用户类型。5.根据权利要求1所述的方法,其中,所述根据异常流失周期和彻底流失用户的数据,得到异常流失用户的分布信息,包括:以所统计到的网课平台彻底流失用户的数据作为用户信息集合;使用改进的相似度权值计算方法,以彻底流失用户的信息集合作为事务集,分别计算出网课平台正常流失周期以及每一个异常流失周期的彻底流失用户之间的相似度权值;以用户作为点,用户之间的相似度权值作为边,制作用户相似度权值的无向图;使用Kruskal算法,计算不同用户之间的最大相似权值,得到用户最大相似权值的无向图;使用Rock聚类算法对所统计的用户最大相似权值无向图进行聚类分析,得到网课平台正常流失周期和每一个异常流失周期彻底流失用户的信息聚类数据;所述信息聚类数据为按照聚类大小进行排序的网课平台彻底流失用户的用户信息聚类;以信息聚类数据作为网课平台异常流失用户的分布信息;所述异常流失用户的分布信息为按照人数由多到少进行排序的异常流失用户聚类,以及聚类对应的用户学习目的和用户类型的信息集合;计算异常流失周期彻底流失用户的信息聚类数据和正常流失周期彻底流失用户的信息聚类数据的差集;以差集作为网课平台异常用户流失周期的异常流失用户的信息...

【专利技术属性】
技术研发人员:杨裕
申请(专利权)人:珠海城市职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1