一种基于关系演化的社交媒体异常群体用户检测方法技术

技术编号:21894315 阅读:24 留言:0更新日期:2019-08-17 15:27
本发明专利技术公开了一种基于关系演化的社交媒体异常群体用户检测方法,所述方法包括如下步骤:步骤一、分别对图流中的每个图对象进行m次边采样,每次采样生成一个流样本;步骤二、根据流样本为每个图对象构建m种节点划分方式;步骤三、根据节点划分构建边概率模型,并计算总样本边集合中的每条边的复合边似然拟合;步骤四、根据复合边似然拟合计算每个图对象的似然拟合,似然拟合较大的图对象被认为是异常图。本发明专利技术针对社交媒体中群体用户发生异常行为的场景,提出了一种改进的基于加权图的异常群体用户检测方法,改进后的方法可以用于处理基于加权图的社交媒体用户交互状态网络,从而既能够保证边采集的有效性,又能减少由用户无意交互造成的异常误报。

An Abnormal Group User Detection Method for Social Media Based on Relational Evolution

【技术实现步骤摘要】
一种基于关系演化的社交媒体异常群体用户检测方法
本专利技术属于社交媒体异常用户检测的安全领域,涉及一种社交媒体中基于关系演化的群体异常用户检测方法。
技术介绍
近几年大批社交类应用开始涌现并且发展迅猛,如国内知名的有腾讯QQ、微信、新浪微博、百度贴吧、豆瓣、天涯社区、知乎等,国外知名的有职业社交网站LinkedIn、微博客社交网站Twitter、轻博客社交平台Tumblr、全球第一大社交网站Facebook、基于图片的社交网站Pinterest、SNS社交网站Google+等。这些社交应用使用户无论身处何地都能轻松互动,可以使素未谋面的陌生人找到兴趣相投的朋友、知己,它可以增加朋友的沟通频率,拉近人们的距离,增进人们的感情,给大家带来方便。然而,在线社交媒体在为人们提供各种便利服务的同时,其也成为不法分子获取巨大利益的新平台。社交媒体存储和共享大量的个人信息,又由于社交媒体的开放性,恶意用户可以通过收集这些用户的个人信息进行非法活动,例如身份盗用、网络攻击、垃圾邮件、欺诈性信息传播甚至恐怖主义攻击计划。此类恶意活动严重威胁到合法用户的个人隐私、用户账号的安全性、用户之间的信任度以及用户个人体验等,因此针对这类恶意行为的异常用户检测已成为在社交媒体安全研究的关键问题之一。目前,针对社交媒体异常用户检测的研究越来越受到人们的重视,国内外已有大量的工作致力于解决社交媒体异常用户检测问题。现有的检测方法大致分为四类,分别为基于行为特征、基于内容、基于图以及无监督学习的检测方案。这些方法大多数只是针对社交媒体中的个体异常用户进行检测,然而,在当前的社交媒体中,一些犯罪分子为了获取更大的利益往往不再单打独斗,而是以团伙的形式进行非法活动,由于事先不知道任何犯罪成员,且某些成员会在不同的时间加入或者退出团伙,此外当检查个体成员时通常不会检测到异常,因此针对这种群体用户的异常检测问题更具挑战性。AggarwalCC等人提出了一种基于图结构连通性模型的异常检测方法(OutliersDetectionBasedonGraphStructuralConnectivityModel,以下简称ODBGSCM)。ODBGSCM方法首先对图流中的图对象所包含的边进行随机采样形成流样本,然后对流样本进行分区操作,最后根据边生成概率模型计算出图对象的异常分数。然而由于ODBGSCM方法只能处理非加权图,因此会存在以下两点问题:(1)未考虑用户关系紧密度社交媒体中用户之间关系的紧密度可以体现在用户交互的频繁度上,而非加权图不能考虑用户交互次数,所以就无法判断用户之间交互关系的紧密程度。以微博为例,大多数普通类用户习惯于为明星类用户的相关内容进行点赞、转发等操作,虽然由此类交互行为产生的交互关系数量巨大,但是这两类用户之间的关系往往不够紧密。因为ODBGSCM方法不能识别用户关系的紧密度,所以会采集到大量用户交互关系紧密度较低的边,而这些边无法反映图真正的结构特征,因此对于异常检测并没有意义,此外还会降低算法的处理效率。(2)存在异常误报由于ODBGSCM方法将包含大量跨越密集分区的边的图视为可疑异常图对象,所以只要处于不同的密集分区的用户发生交互行为,该图就有可能被报为异常,然而此类交互行为可能是用户少次的无意操作,如无意点赞、关注等,因此存在误报的情况。
技术实现思路
针对ODBGSCM方法存在的以上两点问题,本专利技术在ODBGSCM方法的基础上提出了一种改进的基于关系演化的社交媒体异常群体用户检测方法(AbnormalGroupUsersDetectioninSocialMediaBasedonRelationshipEvolution,以下简称AGUD-BRE)。AGUD-BRE方法可以处理无向加权图,其中权重越高表示边连接的两个用户之间的交互关系越密切,因此考虑到了用户交互关系的紧密度,从而既能够保证边采集的有效性,又能减少由用户无意交互造成的异常误报。本专利技术的目的是通过以下技术方案实现的:一种基于关系演化的社交媒体异常群体用户检测方法,包括如下步骤:步骤一、将一组时序上连续的社交媒体用户交互状态演化过程表示为无向加权图流G1,G2,...,Gi,分别对图流G1,G2,...,Gi中的每个图对象进行m次边随机采样,每次采样生成一个流样本,即任意图对象Gi会生成m个流样本步骤二、根据流样本为每个图对象构建m种节点划分方式,即任意图对象Gi会生成m种节点划分方式步骤三、根据节点划分构建边概率模型,并计算总样本边集合S中的每条边的复合边似然拟合;步骤四、根据复合边似然拟合计算每个图对象的似然拟合,似然拟合较大的图对象被认为是异常图。相比于现有技术,本专利技术具有如下优点:本专利技术针对社交媒体中群体用户发生异常行为的场景,在现有ODBGSCM方法的基础上提出一种改进的基于加权图的异常群体用户检测方法AGUD-BRE,改进后的方法可以用于处理基于加权图的社交媒体用户交互状态网络,从而既能够保证边采集的有效性,又能减少由用户无意交互造成的异常误报。附图说明图1为经原方法ODBGSCM处理后的人工构造快照G9和G10的用户交互状态信息,(a)G9,(b)G10;图2为经本专利技术改进方法AGUD-BRE处理后的人工构造快照G9和G10的用户交互状态信息,(a)G9,(b)G10;图3为经本专利技术改进方法AGUD-BRE处理后的人工构造快照G11的用户交互状态信息;图4为原方法ODBGSCM和改进方法AGUD-BRE运行时间对比。具体实施方式下面结合附图对本专利技术的技术方案作进一步的说明,但并不局限于此,凡是对本专利技术技术方案进行修改或者等同替换,而不脱离本专利技术技术方案的精神和范围,均应涵盖在本专利技术的保护范围中。本专利技术提供了一种基于关系演化的社交媒体异常群体用户检测方法,包括如下步骤:步骤一、将一组时序上连续的社交媒体用户交互状态演化过程表示为无向加权图流G1,G2,...,Gi,以Gi=(V,E,W)为例,其中V代表顶点的集合,顶点用来表示用户,代表顶点集合构成的边集,边用来表示用户之间是否存在交互关系,W代表边的权重,权重用来表示用户之间的交互次数。步骤二、边随机采样具体步骤如下所述:(1)随机对边进行编号首先假设节点总数n,即社交媒体在演化过程中用户总数不超过n,则无向图中n个节点构成的边的总数为:然后对En条边进行m(m>0)次随机编号,并将每次编号结果进行记录;(2)执行采样首先设置用户交互次数阈值下限User-connectmin,采集过程根据边的编号大小升序进行,并且只采集边权值大于User-connectmin的边;然后设置每次采样过程中最大连通分量包含的节点总数阈值,并将其表示为即每次采集到一条边就判断当前采集到的所有边构成的最大连通分量包含的节点个数,当节点个数达到阈值后停止采集过程;通过(1)、(2)两个步骤,完成对图对象中存在的边的m次采集过程,并把每次采样所生成的边集合称为一个流样本,那么针对图对象Gi进行m次采样则会生成m个流样本其中第r(0<r≤m)次采样生成的流样本表示为并把总样本表示为步骤三、节点区域划分根据流样本中的边构成的连通分量进行节点区域划分,即每个连通分量划为一个分区。此外在节点划分的过程中需考虑两个问题:一方面本文档来自技高网
...

【技术保护点】
1.一种基于关系演化的社交媒体异常群体用户检测方法,其特征在于所述方法包括如下步骤:步骤一、将一组时序上连续的社交媒体用户交互状态演化过程表示为无向加权图流G1,G2,...,Gi,分别对图流G1,G2,...,Gi中的每个图对象进行m次边随机采样,每次采样生成一个流样本;步骤二、根据流样本为每个图对象构建m种节点划分方式;步骤三、根据节点划分构建边概率模型,并计算总样本边集合S中的每条边的复合边似然拟合;步骤四、根据复合边似然拟合计算每个图对象的似然拟合,似然拟合较大的图对象被认为是异常图。

【技术特征摘要】
1.一种基于关系演化的社交媒体异常群体用户检测方法,其特征在于所述方法包括如下步骤:步骤一、将一组时序上连续的社交媒体用户交互状态演化过程表示为无向加权图流G1,G2,...,Gi,分别对图流G1,G2,...,Gi中的每个图对象进行m次边随机采样,每次采样生成一个流样本;步骤二、根据流样本为每个图对象构建m种节点划分方式;步骤三、根据节点划分构建边概率模型,并计算总样本边集合S中的每条边的复合边似然拟合;步骤四、根据复合边似然拟合计算每个图对象的似然拟合,似然拟合较大的图对象被认为是异常图。2.根据权利要求1所述的基于关系演化的社交媒体异常群体用户检测方法,其特征在于所述步骤一中,Gi=(V,E,W),其中V代表顶点的集合,顶点用来表示用户;代表顶点集合构成的边集,边用来表示用户之间是否存在交互关系;W代表边的权重,权重用来表示用户之间的交互次数。3.根据权利要求1所述的基于关系演化的社交媒体异常群体用户检测方法,其特征在于所述步骤一中,边随机采样的具体步骤如下:(1)随机对边进行编号首先假设节点总数n,则无向图中n个节点构成的边的总数为:然后对En条边进行m次随机编号,并将每次编号结果进行记录;(2)执行采样首先设置用户交互次数阈值下限User-connectmin,采集过程根据边的编号大小升序进行,并且只采集边权值大于User-connectmin的边;然后设置每次采样过程中最大连通分量包含的节点总数阈值,并将其表示为即每次采集到一条边就判断当前采集到的所有边构成的最大连通分量包含的节点个数,当节点个数达到阈值后停止采集...

【专利技术属性】
技术研发人员:杨武
申请(专利权)人:哈尔滨英赛克信息技术有限公司
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1