一种“网络马甲”的检测方法技术

技术编号:10021989 阅读:157 留言:0更新日期:2014-05-09 03:35
本发明专利技术公开一种基于“相似观点”网络和文章作者鉴定技术的“网络马甲”的检测方法,该方法包含三个阶段:首先根据虚拟社会用户的交互信息构建“相似观点”网络;然后根据用户的写作风格对“相似观点”网络进行裁剪;最后利用社区发现算法对裁剪后的“马甲”网络进行社区划分,处于同一个社区的ID被看作是某个人的“网络马甲”。该方法具有以下优势:它遵循了“网络马甲”社区的实际意义;可以被应用于实时的网络环境下检测“网络马甲”;增加了社区发现的有效性。本发明专利技术主要应用于虚拟空间的舆情分析、“网络马甲”检测等诸多领域。

【技术实现步骤摘要】
【专利摘要】本专利技术公开一种基于“相似观点”网络和文章作者鉴定技术的“网络马甲”的检测方法,该方法包含三个阶段:首先根据虚拟社会用户的交互信息构建“相似观点”网络;然后根据用户的写作风格对“相似观点”网络进行裁剪;最后利用社区发现算法对裁剪后的“马甲”网络进行社区划分,处于同一个社区的ID被看作是某个人的“网络马甲”。该方法具有以下优势:它遵循了“网络马甲”社区的实际意义;可以被应用于实时的网络环境下检测“网络马甲”;增加了社区发现的有效性。本专利技术主要应用于虚拟空间的舆情分析、“网络马甲”检测等诸多领域。【专利说明】—种“网络马甲”的检测方法
本专利技术属于Web挖掘领域,涉及一种虚拟空间“网络马甲”智能探测技术,具体的说是一种基于“相似观点”网络和文章作者鉴定技术的“网络马甲”的检测方法。
技术介绍
网络社区中,一些用户使用多个用户名或将自己伪装成其他用户(通常被称为“网络马甲”)与其他用户沟通。一些网络社区的成员,为了迷惑大众,利用一些人造的“网络马甲”,伪装成不同的用户,对某个产品或某个人的工作大肆赞扬或否定。更有甚者,制造某个网络谣言,然后利用不同的网络“马甲”大肆传播。长期以来,“网络马甲”检测技术的相关文献少之甚少,一些相关工作可以被应用于检测“网络马甲”。这些相关大多集中于文章作者身份鉴定技术和社会网络分析方法。在传统的文章作者鉴定模型中,很多分析方法被采纳。其中两种最普遍的技术是基于统计学分析和基于机器学习方法。在20世纪,文章鉴定技术被应用于区别莎士比亚、马克.吐温以及培根文学大师的作品。在这些领域中,Mostteller和Wallace做出了最基本的研究工作。他们使用文章作者鉴定技术准确的将12篇有争议的联邦党文集进行了分类。最近几年,这一方法也被频繁应用于在线文集的作者鉴定。De Vel等人基于网络邮件作者的身份鉴定进行了大量实验分析。他们的研究为基于互联网媒体的文章作者身份鉴定提供了重要研究基础。Zheng等人将De Vel等人的工作进一步扩展,他们对英文和中文网络论坛消息的研究中,加入了多位空间的考量。这些工作在某些应用中取得了一定的成果,但是它们主要集中于对一定数量文章的鉴定。现实的网络社区中充斥的着大量的网络用户和文本信息。基于一定数量的文章的传统的文章作者鉴定技术在这样的虚拟空间中可能不够适用。一些学者提出了采用社区划分算法来解决虚拟空间下的“网络马甲”检测。由于网络中同一个社区中的用户可能具备相同的兴趣、职业和爱好;因此他们的“网络马甲”应该出现在同一个网络“社区”中。Zeng等人的工作为这一领域的研究开辟了研究基础。Du等人提出了 ComTector技术来发现大规模社交网络的网络社区。为了发现社交网络的讨论话题,McCallum等人提出了Author - Recipient-Topic模型。Tian等人提出了基于OLAP的归类策略来根据属性相似性对网络用户进行分类,这样处于统一社区的用户具备形似的属性。Zhao等人提出了一种基于话题的社区发现算法,其结合了社会对象聚类和边界分析技术。上述基于社区发现算法的技术不能够被直接应用户“网络马甲”检测,这是因为他们混淆了“网络马甲”社区的实际含义。实际人,某个人的多个“网络马甲”彼此之间很少有交互,而是经常回复其他相同的ID。此外,相同个人的“网络马甲”应该具有相似的写作风格,并且对同一个话题应该具备相似的观点。为了更加直观的说明之一问题,首先看一个简单的网络社区用户交互实例(见图1 (a))。图1 (a)展示了一个深度为4的讨论主线的树形结构。方形区域的标识展示了发出有效评论的网络用户与其他用户的交互情况。可见,该帖子P首先吸引了三个用户(A、C和D)对其直接回复;在第二层,五个用户(A、B、D、E和G) 一共发出了 8条评论;在三层,又有五个用户(A、B、D、E和F) —共发出了 7条评论;在最后一层,用户C给予了用户G最后一个条评论。在每个用户回复上,用+ or -分别表示支持/反对的态度。图1 (b)表示基于传统用户交互模型(无向稠密网络)生成的交互网络,其包含7个节点和9条边。每条边界上的权值表示用户之间的交互次数。图1 (c)表示基于次交互网络进行社区发现后的社区结构。尽管社区内的用户在论坛中交互频繁,但是他们的观点并不一致。在图1 (c)左边的社区中,用户B同用户A的观点极为相左,这两个ID不太可能为来自同一个用户的“网络马甲”。图1.4 (d)展示我们期望得到的社区划分结果。其中同一个社区中的ID对对待同一个话题具有相似的观点。在此基础上,再分析不同ID的写作风格,假设相同社区中的ID具有相似的写作风格,那么处于同一个社区的ID可被看为某个人的“网络马甲”。图1中的简单例子,为准确发现“网络马甲”提供了一个很好的思路,在进一步讨论之前,需要首先回答下述几个问题: I)网络模型。由于某个人的多个“网络马甲”彼此之间不会交流频繁,传统的网络模型(无向稠密网络)采用用户间的交互次数来衡量网络连接边的权值对于“网络马甲”检测算法可能并不适用,因此,我们需要提出一种更加准确的用户交互模型。2)相似性。两个ID之间的相似性包含两层意思:首先,它们对待同一个话题的观点应该是相似的;再者,两个ID的写作风格也应该是相似的。
技术实现思路
针对传统方法的缺点,本专利技术的目的是提供一种基于“相似观点”网络和文章作者鉴定技术的“网络马甲”的检测方法。该方法具有三个优势:1)它遵循了“网络马甲”社区的实际意义;2)可以被应用于实时的网络环境下检测“网络马甲”;3)它增加了社区发现的有效性。本专利技术的目的是通过 以下技术方案来实现的: ,其特征在于:该方法包含三个阶段:首先根据虚拟社会用户的交互信息构建“相似观点”网络;然后根据用户的写作风格对“相似观点”网络进行裁剪;最后利用社区发现算法对裁剪后的“马甲”网络进行社区划分,处于同一个社区的ID被看作是某个人的“网络马甲”;具体实施步骤如下: 1)利用给定的网络社区用户交互数据构建“相似观点”网络; 2)从“相似观点”网络中选择节点对(WV),从语料数据库提取这两个ID发表的所有评论,构建两个样本集;调用T检验,判断两个评论样本集是否存在显著性差异;如果两个样本没有显著性差异,将节点对(%4)边界保留;否则,将节点对边界裁剪; 3)利用社区发现算法,对裁剪后的“马甲”网络进行社区划分;根据划分的结果,处于同一个社区的用户ID即为某个人的“网络马甲”。本专利技术,步骤I)中,对于两个用户#卩如果他们存在相似的兴趣、并且对参与讨论的话题有相似的观点,则认定他们是“好友”关系,可以构建“相似观点”网络模型,即将整个虚拟社会网络看成一个图σ=<,5>,其中图中的每个节占h表示网络社区中的注册用户;任意两个节点的边界Oj)e£表示用户之间的某种社会关系,网络社区中的社会关系是根据用户间的评论或留言建立的;设~表示用户i对用户j的评论次数表示用户i和用户?某一话题的态度一致性;如果用户I和用户/满足% >0,^ >?并且>0,其中P尸那么丨和/t间存在一条无向边,且边上的权值%=^^'。虚拟社会网络包括四种类型的特征:文本特征、句法特征、结构特征和特本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:卜湛伍之昂曹杰李秀怡方昌健刘英卓
申请(专利权)人:南京财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1