一种网络水军的自动识别方法及系统技术方案

技术编号:20117763 阅读:44 留言:0更新日期:2019-01-16 12:03
本发明专利技术提供一种网络水军的自动识别方法及系统,该方法步骤包括:1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息;2)监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;3)若上述账号的历史被删评论数满足预设条件,则该账号为网络水军。该方法及系统不仅免去了人工标注工作及模型训练,而且能够快速有效的识别社交网络中的网络水军,即当一个账号的评论信息的历史被删评论数满足预设条件,则判定该账号为网络水军。同时该方法及系统适用于多个社交网络,并且能够跨平台运行。

An Automatic Recognition Method and System for Network Navy

The invention provides an automatic identification method and system for network navy. The steps of the method include: 1) collecting message information of authentication account in social network and comment information under each message; 2) monitoring whether each comment information under each message has been deleted, and if the comment information is read, the history of corresponding account has been deleted; 3) if the history of the above account has been deleted. If the number of comments satisfies the preset conditions, the account will be the online navy. This method and system not only eliminates manual labeling and model training, but also can quickly and effectively identify the network Navy in social networks. That is, when the number of comments deleted from an account meets the preset conditions, the account is determined to be the network navy. At the same time, the method and system are suitable for multiple social networks, and can run across platforms.

【技术实现步骤摘要】
一种网络水军的自动识别方法及系统
本专利技术涉及社交网络的网络水军识别领域,尤其涉及一种网络水军的自动识别方法及系统,以实现更加自动、精确地识别社交网络中的网络水军。
技术介绍
随着社交网络相关应用的快速发展,人们越来越多地将活动转移到社交网络中。社交网络通常包括国外的Facebook、Google+、Twitter等和国内的新浪微博、腾讯微博、人人网等。但是目前社交网络存在大量的网络水军,社交网络的网络水军通常对网络信息传播推波助澜,或是恶意抨击一些社交网络账号。他们由政治利益、商业利益驱动,为达到如影响网络民意、扰乱网络环境等不正当目的,通过操纵软件机器人或水军账号在互联网中制造、传播虚假意见和垃圾信息。这些行为严重影响了社交网络用户体验,并且还带来了严重的安全问题。现有的社交网络中网络水军识别方法主要是使用社交网络的消息内容。比较简单的基于内容的网络水军检测方法(K.Lee,J.Caverlee,andS.Webb.Uncoveringsocialspammers:socialhoneypots+machinelearning.InProceedingsofSIGIR,2010)是将其作为一个监督学习问题。这些方法从社交网络的消息内容中提取有效的文本特征来建立一个分类器。给定一个新用户,分类器输出一个分类标签,以判断该新用户是否是网络水军。然而,这些方法通常需要大量的标注数据(这些数据通常都是人工标注),因而耗时耗力。并且人工标注的数据集规模较小,这就为社交网络中网络水军的检测带来了巨大的挑战。
技术实现思路
由于以往的社交网络的网络水军识别方法大多将其作为一个分类问题,需要利用大量的标注数据集。而标注数据需要耗费大量的人力,且标注数据集规模一般较小,训练出的模型泛化能力较弱。基于此,本专利技术的目的是提供一种网络水军的自动识别方法及系统,该方法及系统不需要人工标注数据集,避免耗时耗力的标注工作,且不需要进行模型训练,同时能够快速有效的识别社交网络中的网络水军。针对上述不足,本专利技术所采用的技术方案为:一种网络水军的自动识别方法,其步骤包括:1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息;2)监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;3)若上述账号的历史被删评论数满足预设条件,则该账号为网络水军。进一步地,步骤1)包括以下步骤:1-1)社交网络用户模拟登录;1-2)获取社交网络中认证账号列表,并采集每个认证账号的消息信息;1-3)获取消息列表,并采集每条消息下的评论信息。进一步地,步骤1)中所述认证账号是指被社交网络官方认证的的账号;且认证账号的类型包括政府机构账号、国际组织账号、新闻媒体账号、个人账号。进一步地,步骤1)中所述消息信息包括但不限于消息url、消息内容、消息发布时间、消息评论数、消息转发数、消息点赞数;所述评论信息包括但不限于评论url、评论内容、评论时间、评论用户。进一步地,步骤1)中所述消息信息的发布时间若超出一个月,则删除该消息信息。进一步地,步骤2)具体为:获取每条消息下评论信息的评论列表,监测评论列表中每条评论信息的被删除情况;若该评论信息被删除,则读取该评论信息对应账号的历史被删评论数。进一步地,步骤3)中所述预设条件包括:1)Da>=10;其中Da表示账号的历史被删评论总数;2)Da/Na>=0.2;其中Na表示账号的评论总数;3)账号的首条历史被删评论与其最新被删评论的发布时间间隔大于一周。一种网络水军的自动识别系统,包括数据采集模块和水军识别模块;所述数据采集模块用于采集社交网络中认证账号的消息信息以及每条消息下的评论信息;所述水军识别模块用于对上述消息信息以及每条消息下的评论信息进行监测和判别。进一步地,该系统还包括数据存储模块,用于对上述消息信息以及每条消息下的评论信息进行存储。进一步地,所述水军识别模块包括评论监测模块和水军判别模块;所述评论监测模块用于监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;所述水军识别模块用于判定上述账号的历史被删评论数是否满足预设条件,若是则该账号为网络水军。传统的网络水军识别方法一般利用机器学习的监督学习方法,需要大量的标注数据集进行模型训练。且数据集通常需要耗费大量人力进行标注。而本专利技术提供一种网络水军的自动识别方法及系统,其优点主要体现在:1、该方法及系统免去了人工标注工作,且不需要进行模型训练。2、该方法及系统能够快速有效的识别社交网络中的网络水军,即当一个账号的评论信息的历史被删评论数满足预设条件,则判定该账号为网络水军。3、该方法及系统适用于多个社交网络,并且能够跨平台运行。附图说明图1为本专利技术提供的一种网络水军的自动识别系统框架图。图2为本专利技术提供的一种网络水军的自动识别方法流程图。具体实施方式为使本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。本专利技术提供一种网络水军的自动识别方法及系统,请参考图1,该系统包括数据采集模块、数据存储模块和水军识别模块;所述数据采集模块用于采集社交网络中认证账号的消息信息以及每条消息下的评论信息;所述数据存储模块用于对上述消息信息以及每条消息下的评论信息进行存储;所述水军识别模块用于对上述消息信息以及每条消息下的评论信息进行监测和判别。其中所述水军识别模块又包括评论监测模块和水军判别模块;所述评论监测模块用于监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;所述水军识别模块用于判定上述账号的历史被删评论数是否满足预设条件,若是则该账号为网络水军。本专利技术方法主要包括两部分:1)采集社交网络中认证账号下的用户消息:利用模拟Ajax技术,模拟用户访问社交网络的方式,设计实现社交网络用户消息的采集及存储,如图1所示的数据采集部分和数据存储部分,通过采集获取到社交网络中的部分认证账号的消息信息,并且获取每条消息下的评论信息。其中所述认证账号是指被社交网络官方认证的账号(每一个账号对应一个用户),通常被认证账号的头像右下角附带有加V的标志;所述用户消息是指用户在社交网络上发布的信息,具体包含消息内容、消息发布者、消息发布时间等。2)识别社交网络中的网络水军:利用评论监测模块实时监测每条消息下的评论信息,通过与已有评论比对,监测评论被删除情况。同一社交网络用户的被删评论数满足预设条件,则判定其为网络水军。下面举一具体实施例来解释说明本专利技术,请参考图1及图2,该方法的具体步骤包括:1、采集社交网络中认证账号下的用户消息,具体可分为3个步骤:a)用户模拟登录。通过表单模拟登录,登录后保存Cookie信息到登录池。新线程通过Cookie信息来恢复登录。b)数据获取。完成社交网络用户模拟登陆后,通过网关处Http请求记录结合ChromeAjax网络请求日志,抽取Ajax行为模板,在用户模拟登录基础上,根据模板采集特定目标的社交网络网页内容。c)网页内容解析与抽取。对获取的网页内容解析提取,获取该用户的消息信息以及每条消息下的评论信息。2、识别社交网络中的网络水军:,具体可分为5个步骤:a)识别社交网络认本文档来自技高网...

【技术保护点】
1.一种网络水军的自动识别方法,其步骤包括:1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息;2)监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;3)若上述账号的历史被删评论数满足预设条件,则该账号为网络水军。

【技术特征摘要】
1.一种网络水军的自动识别方法,其步骤包括:1)采集社交网络中认证账号的消息信息以及每条消息下的评论信息;2)监测上述每条消息下的每条评论信息是否被删除,若是则读取该评论信息对应账号的历史被删评论数;3)若上述账号的历史被删评论数满足预设条件,则该账号为网络水军。2.如权利要求1所述的方法,其特征在于,步骤1)包括以下步骤:1-1)社交网络用户模拟登录;1-2)获取社交网络中认证账号列表,并采集每个认证账号的消息信息;1-3)获取消息列表,并采集每条消息下的评论信息。3.如权利要求1所述的方法,其特征在于,步骤1)中所述认证账号是指被社交网络官方认证的的账号;且认证账号的类型包括政府机构账号、国际组织账号、新闻媒体账号、个人账号。4.如权利要求1所述的方法,其特征在于,步骤1)中所述消息信息包括但不限于消息url、消息内容、消息发布时间、消息评论数、消息转发数、消息点赞数;所述评论信息包括但不限于评论url、评论内容、评论时间、评论用户。5.如权利要求1所述的方法,其特征在于,步骤1)中所述消息信息的发布时间若超出一个月,则删除该消息信息。6.如权利要求1所述的方法,其特征在于,步骤2)具体为:获取每条消...

【专利技术属性】
技术研发人员:梁棋沙灜李锐邱泳钦王斌
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1