基于相似子图匹配的在线马甲检测方法技术

技术编号:22565681 阅读:20 留言:0更新日期:2019-11-16 12:16
本发明专利技术提出一种基于相似子图匹配的在线马甲检测方法,包括以下步骤:利用训练数据训练分类算法,建立检测模型;根据所有被封禁账号的社交活动,构建交互网络图和兴趣网络图;将对于待检测账号,根据其社交活动,构建交互网络图和兴趣网络图;将该待检测账号与所有被封禁账号分别进行配对,组成账号对;根据相似子图匹配方法,计算每个账号对的交互网络相似度和兴趣网络相似度;将交互网络相似度和兴趣网络相似度组成特征矩阵,输入到检测模型,判断该待检测账号和封禁账号之间是否匹配,如果匹配,则该待检测账号判定为马甲账号,否则判定为正常账号。

Online vest detection method based on similar subgraph matching

The invention proposes an online vest detection method based on similar subgraph matching, which comprises the following steps: using training data to train classification algorithm, establishing detection model; building interaction network diagram and interest network diagram according to social activities of all banned accounts; building interaction network diagram and interest network diagram according to social activities of accounts to be detected; building interaction network diagram and interest network diagram according to social activities of accounts to be detected; and Test account and all blocked accounts are matched separately to form account pairs; according to the similar subgraph matching method, calculate the interaction network similarity and interest network similarity of each account pair; form the feature matrix of interaction network similarity and interest network similarity, input it into the detection model, and judge whether the account to be tested matches the blocked account, if so, then The account to be tested is determined as vest account, otherwise it is determined as normal account.

【技术实现步骤摘要】
基于相似子图匹配的在线马甲检测方法
本专利技术涉及一种基于相似子图匹配的马甲检测方法,属于计算机领域。
技术介绍
在线社交网络扩大了人们的交友圈,并且在我们的日常生活中,已经成为一个非常重要的部分。随着社交网络平台和其他在线交互平台的日益普及,身份盗窃、网络欺诈等网络犯罪越来越普遍,社交网络的用户对网络社区造成负面影响的可能性不断增加。在社交网络中,人们能够实时分享他们的想法和喜好,同时分享与传播的便利性往往会带来社交网络安全威胁,而网络空间中的匿名和虚假身份的存在,导致网络犯罪行为更加难以被及时察觉。社交网络平台和社交应用程序的多样性以及便利性,以及网络空间中存在的空间和时间的距离而带来的安全性,进一步助长了这类犯罪行为。这些网络威胁基于社交网络平台的脆弱性而迅速扩散,如身份盗窃,身份模拟等行为。有些恶意用户会通过社交网络制造一些网络空间的安全问题,例如,垃圾评论、欺诈、网络欺凌、恶意言论、歧视,这些恶意行为会导致这些用户被封禁。为了绕过封禁机制,他们中的一些人会注册一个或者多个新的账号以便于继续发布和传播垃圾信息,这些账号称为马甲,这是由于很多社交平台的注册机制管理不严格,很容易产生新的账号。在本文中,广泛地定义一个马甲为一个用户账号,这个账号被一个个人(或者马甲操纵者)控制,这个人还控制了至少一个其他账号。并且,用马甲组或者马甲对的概念表示所有的由同一个马甲操纵者控制的账号(参照S.Kumar,J.Cheng,J.Leskovec,etal,“Anarmyofme:Sockpuppetsinonlinediscussioncommunities,”InProceedingsofthe26thInternationalConferenceonWorldWideWeb.InternationalWorldWideWebConferencesSteeringCommittee,2017,pp.857-866.)。普通用户或者普通账号指的是一个非马甲用户或者正常的用户。马甲的功能通常是负面的,比如,利用不同账号支持自己的观点以误导普通用户,利用多个身份反对甚至诋毁他人,注册成千上万个账号发布不良信息、散步谣言等,这样的行为既浪费网络资源,又影响网络空间的安全和公平。因此,在社交媒体上的大量用户中,准确并有效地检测出马甲并找到马甲组是有非常有价值并且具有挑战性的。目前的研究,已经提出了基于语言交流(例如,语言或文本)的解决方案,例如基于语言特征的相似度计算,如写作风格,写作形式等,其可以帮助检测由同一马甲操纵者控制的马甲账号,例如文本中总共的字符数、句子数,符号数和单词数。但是,由于适当数据的可用性不同,该类方法的有效性在计算效率和实际实现的复杂性方面有所不同,而且要处理大量的文本数据。此外,由于一些非语言行为,例如发文习惯,在离线世界中进行欺骗检测的成功率很高,因此有些学者在马甲检测中也引入了一些非言语行为(参照T.O.Meservy,M.L.Jensen,J.Kruse,etal.,“Deceptiondetectionthroughautomatic,unobtrusiveanalysisofnonverbalbehavior,”IEEEIntelligentSystems,20(5),2005,pp.36-43.),例如用户在维基百科上修改的次数,添加和删除的字节总数。这种类型的方法在计算上比基于语言的方法更有效,因为这些方法仅关注马甲账号本身,并且不对同一个人创建的马甲进行组合。但是,聪明的马甲操纵者逐渐认识到这些言语和非语言行为检测,他们开始尽力去隐藏这些特征以躲避检测。此外,以前的研究一般忽略了由同一个马甲操纵者控制的马甲之间的社交网络结构联系,这可以用来准确和自动地识别马甲。因此,改进用于识别马甲的方法以及对马甲的社交网络进行更深入的分析可以被更好地理解,表征和自动检测马甲。
技术实现思路
本专利技术深入分析研究用户的社交网络结构,并观察到社交网络在马甲的影响力中起着关键作用,发现只有通过恢复类似的社交网络,马甲才能保证与先前被封禁的账号具有相似的传播影响力。由同一个马甲操纵者控制的马甲账号之间的社交网络是相似的并且有些重复,这是马甲的一个最重要特征。他们必须传播帖子或评论,而以前马甲的社会结构在一段时间的积累中更加成熟,故保持影响力的最方便有效的方式是恢复社交网络。因此,本专利技术的目的是提出一种基于相似子图匹配的在线马甲检测方法(SockpuppetDetectionBasedonSubgraphSimilarityMatching,SDSSM),结合社交网络结构特征及相似子图匹配的进行马甲检测,将马甲检测问题转化为相似子图匹配的问题,不需要设置复杂的参数,简单有效。为实现上述目的,本专利技术采用的技术方案如下:一种基于相似子图匹配的在线马甲检测方法,包括以下步骤:利用训练数据训练分类算法,建立检测模型;根据所有被封禁账号的社交活动,构建交互网络图和兴趣网络图;将对于待检测账号,根据其社交活动,构建交互网络图和兴趣网络图;将该待检测账号与所有被封禁账号分别进行配对,组成账号对;根据相似子图匹配方法,计算每个账号对的交互网络相似度和兴趣网络相似度;将交互网络相似度和兴趣网络相似度组成特征矩阵,输入到检测模型,判断该待检测账号和封禁账号之间是否匹配,如果匹配,则该待检测账号判定为马甲账号,否则判定为正常账号。其中,相似子图匹配是一种相似度评价方法,它用来表示两个图之间的相似程度。如果两个账号的社交图的子图相似度越大,则两个账号的关系越紧密,这样测试账号就很有可能是马甲账号。进一步地,所述相似子图匹配,分为了交互网络相似度和兴趣网络相似度,具体公式如下(1)和(2):其中:u,v分别为两个账号作为各自交互网络图的中心节点,H(u,v)为这两个账号之间的交互网络相似度,其中X为这两个账号的交互网络中相同节点的集合,Φ(*)代表两个节点之间的亲密程度,可以由两个节点之间的路径和权重计算得到,Vu和Vv分别代表这两个中心节点的交互玩够哦图中的所有节点集合;其中:u,v分别为两个账号作为各自交互网络图的中心节点,I(u,v)为这两个账号之间的兴趣网络相似度,其中Y为这两个账号的兴趣网络中相同兴趣标签的集合,Ψ(*)代表每个相同变迁的权重相似度。进一步地,所述分类算法包括:a.逻辑回归(LR):该算法可以用一个或多个解释变量来表示一个二项式结果,使用逻辑函数来估计概率;b.支持向量机(SVM):该算法给定N维坐标下两种类型的点,生成(N-1)维的超平面来将这些点分为两组;c.随机森林(RF):该算法是一个包含多个决策树的分类器,其输出类别是由个别树输出的类别的众数而定;d.自适应增强(AdaBoost):该方法是一种迭代算法,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率。一种基于相似子图匹配的在线马甲检测系统,包括:图构建模块、训练模块、账号对匹配模块本文档来自技高网
...

【技术保护点】
1.一种基于相似子图匹配的在线马甲检测方法,包括以下步骤:/n利用训练数据训练分类算法,建立检测模型;/n构建所有被封禁账号的交互网络图和兴趣网络图;/n构建待检测账号的交互网络图和兴趣网络图;/n将待检测账号与所有被封禁账号分别进行配对,组成账号对;/n根据相似子图匹配方法,计算每个账号对的交互网络相似度和兴趣网络相似度;/n将交互网络相似度和兴趣网络相似度组成特征矩阵,输入到一检测模型中,由该检测模型判断待检测账号和封禁账号之间是否匹配,如果匹配,则判定该待检测账号为马甲账号,否则判定为正常账号。/n

【技术特征摘要】
1.一种基于相似子图匹配的在线马甲检测方法,包括以下步骤:
利用训练数据训练分类算法,建立检测模型;
构建所有被封禁账号的交互网络图和兴趣网络图;
构建待检测账号的交互网络图和兴趣网络图;
将待检测账号与所有被封禁账号分别进行配对,组成账号对;
根据相似子图匹配方法,计算每个账号对的交互网络相似度和兴趣网络相似度;
将交互网络相似度和兴趣网络相似度组成特征矩阵,输入到一检测模型中,由该检测模型判断待检测账号和封禁账号之间是否匹配,如果匹配,则判定该待检测账号为马甲账号,否则判定为正常账号。


2.如权利要求1所述的方法,其特征在于,交互网络图为根据账号之间的交互关系建立的带标签的有向加权图Gu=(V,E,W),其中V表示交互网络中的一个账号节点集合,E表示账号节点与账号节点之间的交互关系即边的集合,W表示边的权重集合。


3.如权利要求1所述的方法,其特征在于,交互网络相似度的计算公式如下:



其中,u,v分别表示两个账号作为各自交互网络图的中心节点,H(u,v)表示两个账号之间的交互网络相似度,X表示这两个账号的交互网络中相同节点的集合,Φ(*)表示两个节点之间的亲密程度,通过两个节点之间的路径和权重计算得到,Vu和Vv分别表示两个中心节点的交互网络图中的所有节点集合。


4.如权利要求3所述的方法,其特征在于,Φ(*)的计算公式如下:



其中,u,v分别表示两个账号作为各自交互网络图的中心节点,W表示边的权重集合,P表示u,v两节点之间的最短路径。


5.如权利要求4所述的方法,其特征在于,权重集合W的计算公式为:


【专利技术属性】
技术研发人员:周薇王景丽李嘉诚韩冀中虎嵩林
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1