基于用户行为数据的异常用户群体检测方法、装置、设备制造方法及图纸

技术编号:26072171 阅读:20 留言:0更新日期:2020-10-28 16:45
本申请属于数据分析领域,公开了一种基于用户行为数据的异常用户群体检测方法、装置、计算机设备及可读存储介质。所述方法包括根据获取的用户行为数据统计用户的行为特征;通过概率密度函数计算行为特征的高斯分布,得到每一行为特征的分布概率;根据预设权重表为不同行为特征的分布概率赋予权重;基于分布概率、权重计算用户为正常用户的概率值;并将概率值与预训练阈值进行对比,将小于预训练阈值的概率值对应的用户归入异常用户群体。采用本方法解决了现有技术中基于不同时间周期的样本数据进行当前目标时间点的数据进行异常预测的准确率存在偏差,导致预测得到的结果不准确。本申请还涉及区块链技术,所述用户行为数据可存储于区块链中。

【技术实现步骤摘要】
基于用户行为数据的异常用户群体检测方法、装置、设备
本申请涉及数据分析领域,特别是涉及一种基于用户行为数据的异常用户群体检测方法、装置、计算机设备和存储介质。
技术介绍
现在“羊毛党”活跃于各类互联网平台,针对平台优惠活动,以相对较低成本甚至零成本换取物质上的实惠。“羊毛党”利用大量的手机卡,通过设备批量进行虚假注册、领取活动礼品,给平台带来巨额损失。“羊毛党”用户相对于平台所有用户而言,可以认为是异常用户。对于异常用户行为检测,目前有以下方式:基于箱线图计算下四分位数与上四分位数的位差,认定一定范围外的点即为异常点,但是这种方式的精度欠缺,识别出的异常点比较少;另一种方式是基于距离位置的异常检测,先假设正常用户数据都比较集中,具有比较多的邻居,而异常数据都是孤立的,但是这种方式不适用于“羊毛党”,因为“羊毛党”一般是批量注册、批量领取礼品,表现为群聚特征。由此可见,现有技术对异常用户预测的准确率较低。
技术实现思路
基于此,有必要针对上述技术问题,本申请提供一种基于用户行为数据的异常用户群体检测方法、装置、计算机设备及存储介质,以解决现有技术中对异常用户预测的准确率低的技术问题。一种基于用户行为数据的异常用户群体检测方法,所述方法包括:根据获取的用户行为数据统计每个用户的行为特征,其中,所述行为特征包括用户的UA设备数量、在APP上的活跃天数和模块操作次数;通过概率密度函数计算所述行为特征的高斯分布,得到每一所述行为特征的分布概率;根据预设权重表为不同所述分布概率赋予权重,其中,将所述活跃天数、所述模块操作次数的权重设为第一权重,将所述UA设备数量的权重设为第二权重;基于所述分布概率、所述权重计算每一用户为正常用户的概率值;并将所述概率值与预训练阈值进行对比,将小于所述预训练阈值的概率值对应的用户归入异常用户群体。一种基于用户行为数据的异常用户群体检测装置,所述装置包括:特征获取模块,用于根据获取的用户行为数据统计每个用户的行为特征,其中,所述行为特征包括用户的UA设备数量、在APP上的活跃天数和模块操作次数;高斯计算模块,用于通过概率密度函数计算所述行为特征的高斯分布,得到每一所述行为特征的分布概率;权重赋予模块,用于根据预设权重表为不同所述分布概率赋予权重,其中,将所述活跃天数、所述模块操作次数的权重设为第一权重,将所述UA设备数量的权重设为第二权重;概率计算模块,用于基于所述分布概率、所述权重计算每一用户为正常用户的概率值;以及阈值对比模块,用于将所述概率值与预训练阈值进行对比,将小于所述预训练阈值的概率值对应的用户归入异常用户群体。一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于用户行为数据的异常用户群体检测方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于用户行为数据的异常用户群体检测方法的步骤。上述基于用户行为数据的异常用户群体检测方法、装置、计算机设备和存储介质,通过埋点的方式获取用户的行为数据,并统计得到若干个用户行为特征,并基于高斯分布计算每一个用户的行为特征的分布概率,依靠预设定的权重计算每一个用户为正常用户的概率值。不仅计算概率值还对比概率值与预训练阈值进行对比,以预训练阈值为分界点将用户划分为异常用户群体和正常用户,使用高斯分布对用户的完整行为特征进行预测,保证预测的准确性;而且本提案还通过已标注的用户行为数据进行预训练阈值的确认,这种与训练方式随着训练样本的增多,使得预训练阈值愈加趋近于真实值,最终使得对异常用户预测更加准确。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为基于用户行为数据的异常用户群体检测方法的应用环境示意图;图2为基于用户行为数据的异常用户群体检测方法的流程示意图;图3为图2中步骤202的流程示意图;图4为图2中预训练阈值的训练流程示意图;图5为基于用户行为数据的异常用户群体检测装置的示意图;图6为一个实施例中计算机设备的示意图。具体实施方式除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的基于用户行为数据的异常用户群体检测方法,可以应用于如图1所示的应用环境中。其中,该应用环境可以包括终端102、网络以及服务端104,网络用于在终端102和服务端104之间提供通信链路介质,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端102通过网络与服务端104交互,以接收或发送消息等。终端102上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。服务端104可以是提供各种服务的服务器,例如对终端102上显示的页面提供支持的后台服务器。需要说明的是,本申请实施例所提供的基于用户行为数据的异常用户群体检测方法一般由服务端/终端执行,相应地,基于用户行为数本文档来自技高网
...

【技术保护点】
1.一种基于用户行为数据的异常用户群体检测方法,其特征在于,所述方法包括:/n获取用户行为数据,根据所述用户行为数据统计每个用户的行为特征,其中,所述行为特征包括用户的UA设备数量、在APP上的活跃天数和模块操作次数;/n通过概率密度函数计算所述行为特征的高斯分布,得到每一项行为特征的分布概率;/n根据预设权重表为不同行为特征的所述分布概率赋予权重,其中,将所述活跃天数、所述模块操作次数的权重设为第一权重,将所述UA设备数量的权重设为第二权重,其中,所述第一权重大于所述第二权重;/n基于所述分布概率、所述权重计算每一用户为正常用户的概率值;并/n将所述概率值与预训练阈值进行对比,将小于所述预训练阈值的概率值对应的用户归入异常用户群体。/n

【技术特征摘要】
1.一种基于用户行为数据的异常用户群体检测方法,其特征在于,所述方法包括:
获取用户行为数据,根据所述用户行为数据统计每个用户的行为特征,其中,所述行为特征包括用户的UA设备数量、在APP上的活跃天数和模块操作次数;
通过概率密度函数计算所述行为特征的高斯分布,得到每一项行为特征的分布概率;
根据预设权重表为不同行为特征的所述分布概率赋予权重,其中,将所述活跃天数、所述模块操作次数的权重设为第一权重,将所述UA设备数量的权重设为第二权重,其中,所述第一权重大于所述第二权重;
基于所述分布概率、所述权重计算每一用户为正常用户的概率值;并
将所述概率值与预训练阈值进行对比,将小于所述预训练阈值的概率值对应的用户归入异常用户群体。


2.根据权利要求1所述的方法,其特征在于,所述用户行为数据保存在预设数据库中,所述预设数据库包括埋点数据表和活动参与表,所述根据获取的用户行为数据统计每个用户的行为特征,包括:
从所述埋点数据表中获取用户的所述UA设备数量;
从所述活动参与表中获取用户在APP上的所述活跃天数、所述模块操作次数;
将所述UA设备数量、所述活跃天数以及所述模块操作次数作为所述用户的行为特征。


3.根据权利要求1所述的方法,其特征在于,在所述将所述概率值与预训练阈值进行对比,将小于所述预训练阈值的概率值对应的用户归入异常用户群体之前,还包括:
获取用户样本数据,并按照预设比例将所述用户样本数据划分为训练数据和测试数据,其中,所述用户样本数据包括用户的实际标签;
计算所述训练数据中样本用户为正常用户的概率值;
将最小概率值作为待训练阈值对所述训练数据进行预测划分,得到预测划分结果;并
根据所述预测划分结果计算所述待训练阈值对应的预测指标;
将所述待训练阈值加上预设间隔值更新所述待训练阈值,并重复预测划分与所述预测指标计算的操作,直到所述待训练阈值满足阈值条件,则将最大预测指标对应的待训练阈值作为所述待确认阈值;
计算所述测试数据为正常用户的概率值,并根据所述测试数据的概率值、所述待确认阈值对所述测试数据进行异常预测;
若得到的异常预测结果与测试数据的实际标签一致性达到设定值,则确定所述待确认阈值为所述预训练阈值。


4.根据权利要求3所述的方法,其特征在于,所述预测划分结果包括:
TP:预测为真且正确,
FP:预测为真且错误,
FN:预测为假且错误,
TN:预测为假且正确,
其中,TP、FN为真,表示预测的结果异常;
TN、FP为假,表示预测的结果为正常,且...

【专利技术属性】
技术研发人员:敖琦唐炳武
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1