一种基于AI的异常人群识别方法技术

技术编号:23983888 阅读:32 留言:0更新日期:2020-04-29 12:36
本发明专利技术涉及一种基于AI的异常人群识别方法,包括如下步骤:步骤一:搜集信息,以设备为研究对象,搜集设备在平台出现的所有设备信息;步骤二:无监督算法实现,将以上搜集到的数据用数据结构图表示;步骤三:有监督算法实现,通过步骤二中的数据结构图构建二分类的预测模型。本发明专利技术解决了需要用户有实际的批量异常行为,对于养号很久,仿真度高,一夜获利并消失的黑产作案模式,有明显的滞后性的技术问题。

An AI based method for identifying abnormal population

【技术实现步骤摘要】
一种基于AI的异常人群识别方法
本专利技术属于人工智能算法领域,具体涉及一种基于AI的异常人群识别方法。
技术介绍
伴随着直播和游戏等行业在互联网中的快速发展,在企业为了拉新和刺激用户活跃和留存而投入的各项活动里,潜伏着越来越多的黑产团伙,伪装成正常用户,通过批量化智能化的手段从中牟利。黑产团伙往往拥有一批固定的硬件设备(手机墙和猫池等)和黑产人员,通过刷机和脚本变换各项参数,从而利用少量真实硬件设备“制造”无限虚拟账号,降低获利成本。传统的黑产发现方法,是当黑产在平台产生具体异常行为(如批量异常注册,批量异常登陆,批量异常充值等)时,才会锁定该批用户为同一批黑产团伙。这样的发现方法,需要用户有实际的批量异常行为,对于养号很久,仿真度高,一夜获利并消失的黑产作案模式,有明显的滞后性。同时,黑产可轻松改变软件信息,继续注册新账号。有鉴于此,本申请人提供一种基于AI的异常人群识别方法,本案由此产生。
技术实现思路
为了解决以上问题,提出了预见性的,无监督与有监督方法相结合的,可解释性更强的一种基于AI的异常人群识别方法。为实现上述目的,本专利技术具体提供的技术方案为:一种基于AI的异常人群识别方法,包括如下步骤:步骤一:搜集信息,以设备为研究对象,搜集设备在平台出现的所有设备信息;步骤二:无监督算法实现,将以上搜集到的数据用数据结构图表示;步骤三:有监督算法实现,通过步骤二中的数据结构图构建二分类的预测模型。进一步,搜集信息时机,不论设备是否注册成功,设备在平台出现,开始搜集允许范围内的设备信息和账号信息。进一步,搜集内容,首先搜集强设备信息,然后搜集设备间的交互行为,再搜集设备自身行为特征。进一步,所述步骤二具体为:一、以设备为节点,以存在相同的设备信息和相似的交互行为和相似的设备自身行为为边;遍历所有节点和属性,生成网络中所有边;二、有关联边的节点形成一个子图,同个子图内的节点在一个或多个属性上关联关系;三、绘制成图,计算每个子图的聚类系数,计算每个子图的节点个数;四、任意汇总历史上一段时间内的设备信息,分析出该段时间内的设备团伙;五、不同时间段内若存在相同的设备,合并两个团伙,形成更大规模的团伙。进一步,合并两个团伙,形成更大规模的团伙,以此类推,团伙可以累积扩大。进一步,所述步骤三具体为:一、构建特征,步骤二的数据结构图构建后,得到每个图的共性;二、设计分类目标值,账号是否曾被人工标记违规为目标,建立分类预测模型;三、采用随机森林分类算法,构建模型;四、构建模型评价指标,作为账号处罚依据。本专利技术的有益效果:本专利技术通过搜集信息时机,不论设备是否注册成功,设备在平台出现,开始搜集允许范围内的设备信息和账号信息,搜集内容,首先搜集强设备信息,然后搜集设备间的交互行为,再搜集设备自身行为特征,解决了需要用户有实际的批量异常行为,对于养号很久,仿真度高,一夜获利并消失的黑产作案模式,有明显的滞后性的技术问题。附图说明图1为根据一示例性实施例示出的一种基于AI的异常人群识别方法的流程图。图2为根据一示例性实施例示出的一种基于AI的异常人群识别方法的设备节点网络构建原理图。图3为根据一示例性实施例示出的一种基于AI的异常人群识别方法的设备节点网络构建图。图4为根据一示例性实施例示出的一种基于AI的异常人群识别方法的混淆矩阵图。图5为根据一示例性实施例示出的一种基于AI的异常人群识别方法的ROC曲线图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。如图1所示,本实施例揭示的是一种基于AI的异常人群识别方法,包括如下步骤,S100步骤一:搜集信息,以设备为研究对象,搜集设备在平台出现的所有设备信息;搜集信息时机,不论设备是否注册成功,设备在平台出现,开始搜集允许范围内的设备信息和账号信息;搜集内容,首先搜集强设备信息,然后搜集设备间的交互行为,再搜集设备自身行为特征。S200步骤二:无监督算法实现,将以上搜集到的数据用数据结构图表示;S300步骤三:有监督算法实现,通过步骤二中的数据结构图构建二分类的预测模型。结合图2-5所示,对上述步骤具体展开如下:(一)搜集信息搜集的时机:以设备为研究对象,搜集设备在平台出现的所有设备信息,即不论设备是否注册成功,只要该设备在平台出现,就开始搜集允许范围内的设备信息/账号信息。搜集的内容:a.首先搜集强设备信息,如硬件唯一标识等。b.然后搜集设备间的交互行为。在如荔枝/喜马拉雅等音频APP中,用户可以播放节目/对节目进行评论/对主播进行点赞/护发私信一对一聊天/开语音房间群聊。这些就是用户间产生的诸多种交互。这类平台也变为黑产掘金的宝地,有的成为水军乱发评论扰乱秩序,有的冒充官方低价金币买卖,有的导流到微信QQ等平台去进行聊污/微商推销/兼职诈骗/违禁物品买卖/传教反共等活动,有的进行竞品导流。分析用户的历史交互行为,可以从中发现用户交互的特征(如曾经在设备A登陆的账号,在设备B上进行了登陆,并完成充值后,交还设备A进行登陆消费;或者设备A从来只有充值行为,没有与任何一个主播有着该有的浏览收听等使用行为。这类行为与正常的使用行为有明显不同,有低价代充金币的嫌疑0p)。c.设备自身行为特征除了交互,设备本身的维度也可以产生很多特征,如:1分钟内发送的评论记录数/1分钟内发送的去重评论记录数(二)无监督算法实现本专利技术将以上搜集到的数据用数据结构图来表示,具体实现如下:a.以设备为节点,以存在相同的设备信息/相似的交互行为/相似的设备自身行为为边。比如,设备A与设备B,在硬件唯一标识上相同,就在图中节点A和节点B之间生成的一条边。遍历所有节点和属性,生成网络中所有边。b.有关联边的节点可以形成一个子图。同个子图内的节点在一个或多个属性上存在关联关系。因此,所有子图的集合反映了整个设备网络中的关联关系。c.绘制成图后,可以计算每个子图的聚类系数,即团伙紧凑程度。可以计算每个子图的节点个数,即团伙大小。d.任意汇总历史上一段时间内的设备信息,都可以分析出该段时间内的设备团伙。e.不同时间段内若存在相同的设备,即可合并两个团伙,形成更大规模的团伙。以此类推。团伙可以累积扩大。(三)有监督算法实现本专利技术接着构建二分类的预测模型,具体实现方法如下:a.构建特征步骤②的图构建后,我们就可以得到每个图的共性,如都是拥有同批设备,同样的行为轨迹(同一天注册且同一天为某账号充值且同一天消失),同样的交互手段(账号在本文档来自技高网...

【技术保护点】
1.一种基于AI的异常人群识别方法,其特征在于,包括如下步骤:/n步骤一:搜集信息,以设备为研究对象,搜集设备在平台出现的所有设备信息;/n步骤二:无监督算法实现,将以上搜集到的数据用数据结构图表示;/n步骤三:有监督算法实现,通过步骤二中的数据结构图构建二分类的预测模型。/n

【技术特征摘要】
1.一种基于AI的异常人群识别方法,其特征在于,包括如下步骤:
步骤一:搜集信息,以设备为研究对象,搜集设备在平台出现的所有设备信息;
步骤二:无监督算法实现,将以上搜集到的数据用数据结构图表示;
步骤三:有监督算法实现,通过步骤二中的数据结构图构建二分类的预测模型。


2.根据权利要求1所述的一种基于AI的异常人群识别方法,其特征在于:搜集信息时机,不论设备是否注册成功,设备在平台出现,开始搜集允许范围内的设备信息和账号信息。


3.根据权利要求2所述的一种基于AI的异常人群识别方法,其特征在于:搜集内容,首先搜集强设备信息,然后搜集设备间的交互行为,再搜集设备自身行为特征。


4.根据权利要求1所述的一种基于AI的异常人群识别方法,其特征在于,所述步骤二具体为:一、以设备为节点,以存在相同的设备信息和相似的交互行为...

【专利技术属性】
技术研发人员:颜晨帆陈勇华
申请(专利权)人:广州荔支网络技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1