一种基于群智传感器的网络空间群体性事件感知与检测方法技术

技术编号:21892063 阅读:21 留言:0更新日期:2019-08-17 14:34
本发明专利技术公开了一种基于群智传感器的网络空间群体性事件感知与检测方法,属于数据挖掘领域,具体步骤如下:一、收集每日的微博流数据;步骤二、根据微博账号的影响力筛选用于感知网络空间群体性事件的传感器账号;步骤三、对传感器账号的微博数据进行去噪处理;步骤四、对去噪后的微博数据按评论转发数进行排序;步骤五、对排序后的微博数据进行去重处理;步骤六、识别出相关事件涉及的时间地点和人物;步骤七、提取与事件相关的微博数据,对该事件进行分类并计算各微博内容的敏感值。本发明专利技术通过筛选具有影响力的媒体和用户账号组成群智传感器网络对网络空间群体性事件进行感知,无需对大规模微博数据进行挖掘,有效节省了计算和时间成本。

Group Event Perception and Detection in Network Space Based on Swarm Intelligence Sensor

【技术实现步骤摘要】
一种基于群智传感器的网络空间群体性事件感知与检测方法
本专利技术属于计算机和数据挖掘
,具体涉及一种感知并检测网络空间群体性事件的方法。
技术介绍
网络空间群体性事件是指由某些社会矛盾引发,特定群体或不特定多数人在网络上聚合临时形成的偶合群体,以人民内部矛盾的形式,通过规模性聚集、对社会造成影响的线上群体活动。参与者以语言行为为主,或表达诉求和主张,或直接争取和维护自身利益,或发泄不满,制造影响,因而对社会秩序和社会稳定造成重大负面影响。随着中国社会的不断发展,新问题、新矛盾不断增多,网络空间群体性事件呈上升趋势,一定程度上影响到了社会的长治久安,成为监管部门亟需研究和解决的一个重要课题。微博作为中国目前最大的舆论平台之一,对舆情事件的传播起到巨大的推动作用。然而,微博中存在的诸多谣言或恶意信息肆意传播的现象,给监管部门带来巨大挑战。因此,感知并检测网络空间群体性事件对促进网络安全的发展有重要意义。目前业界存在的微博热点话题追踪方法,主要是通过爬取微博数据,对全部爬取的数据使用LDA(文档主题生成模型)模型进行主题识别,然后计算话题/主题的相似度进行合并。但这些方法存在一定的局限性:如果爬取的数据过少,则识别的主题有限,若爬取的数据过多,则计算处理的代价过高。且常见热点话题的识别算法并没有考虑网络内容安全的需要,因而无法应用在网络安全领域。因此,本专利技术在总结目前关于微博热点话题挖掘缺陷的基础上,针对社会舆情和网络内容安全,提出了一种完备的网络空间群体性事件的感知与检测方法,以快速准确地识别网络空间群体性事件。
技术实现思路
本专利技术针对大数据环境下网络空间群体性事件难以在早期识别和检测的问题,构建了一种基于群智传感器的网络空间群体性事件感知与检测方法,在早期识别并检测网络空间群体性事件。本专利技术提供的基于群智传感器的网络空间群体性事件感知与检测方法,具体步骤如下:步骤一、收集每天的微博流数据;为每条微博流数据设置1个标识,标识该条微博是原创微博、转发微博或评论微博。每条微博的数据包括:uid,mid,root_mid,root_uid,账号粉丝数,时间,微博文本内容;uid为当前微博账号的标识id;mid为当前微博的id;root_mid分为三种情况:如果当前微博是原创微博,root_mid为空;如果当前微博是转发微博,root_mid为被转发微博id;如果当前微博是评论微博,root_mid为被评论微博id;root_uid分为三种情况:如果当前微博是原创微博,root_uid为空;如果是转发微博,root_uid为被转发账号id;如果是评论微博,root_uid为被评论账号id;时间为当前微博的发布时间;微博文本内容分为三种情况:如果是原创微博,微博文本内容即用户发布内容;如果是转发微博,微博文本内容是用户转发时附加的评论信息;如果是评论微博,微博文本内容即被评论微博的发布内容。步骤二、根据微博账号的影响力筛选用于感知网络空间群体性事件的传感器账号;对一个微博账号,计算该账号的影响力Power=0.4*activelevel+0.6*bloginfluence;其中,activelevel为账号活跃度,计算公式为:activelevel=0.4*exp(x1)+0.4*ln(x2)+0.2*lg(x3);x1为该账号的原创微博数量,x2为该账号转发和评论的微博数量,x3为该账号的粉丝数;bloginfluence为账号的微博影响力,计算公式为:bloginfluence=0.5*x4+0.5*x5;x4为该账号的原创微博平均被转发量,x5为该帐号的原创微博平均被评论量。步骤三、对传感器账号的微博流数据进行去噪处理,剔除包含非群体性事件内容的微博。步骤四、对去噪后的微博数据按热度进行排序,使用微博的评论转发数计算其热度。步骤五、对排序后的微博数据进行去重处理,以事件为中心对微博进行聚合。步骤六、识别出事件涉及的时间、地点和人物,将不包含时间和地点的微博过滤掉,剩下的微博是与事件相关的微博数据。步骤七、提取与事件相关的微博数据,对该事件进行分类并计算各微博内容的敏感值。相对于现有技术,本专利技术的优点和积极效果在于:1)步骤二中,通过筛选具有一定影响力的媒体和用户账号组成群智传感器网络对网络空间群体性事件进行感知和检测,在保证网络空间群体性事件识别准确率的前提下,有效减少了相关计算的工作量,从而更早地感知出网络空间群体性事件以采取相关对策。2)步骤五中,使用了shingle算法对去噪后的微博数据进行了聚合操作,该操作的意义在于对同一事件的不同文本描述进行聚合,从而明确了有哪些群体性事件及哪些微博文本与某事件相关。3)本专利技术方法提出了一套较为完备的网络空间群体性事件感知与检测方案,涵盖了网络空间群体性事件的感知,检测和计算,计算阶段包括事件分类和微博敏感度计算,其中事件分类是专门针对网络空间群体性事件定制的,涵盖了20个与网络和社会安全相关的敏感领域,能够为处置网络空间群体性事件提供决策支持。附图说明图1为本专利技术的基于群智传感器的网络空间群体性事件感知与检测方法的流程图。具体实施方式下面将结合附图和实施例对本专利技术作进一步的详细说明。本专利技术的基于群智传感器的网络空间群体性事件感知与检测方法的一个实现流程如图1所示,下面对各步骤进行说明。步骤一、收集每日的微博流数据;每天新浪微博的流数据推送到服务器,微博流数据可分为原创微博、转发微博和评论微博三类。每条流数据含有1个标识,标识设置为1、2或3,1表示该条微博是原创微博,2表示该条微博是评论微博,3表示该条微博是转发微博。每条流数据的信息包括:uid,mid,root_mid,root_uid,账号粉丝数,时间,微博文本内容;uid为当前微博的用户id(标识);mid为当前微博的标识id;root_mid分为三种情况:如果当前微博是原创微博,root_mid为空;如果当前微博是转发微博,root_mid为被转发的微博ID;如果当前微博是评论微博,root_mid为被评论的微博ID;root_uid分为三种情况:如果当前微博是原创微博,root_uid为空;如果是转发微博,root_uid为被转发的用户ID;如果是评论微博,root_uid为被评论的用户ID;时间为当前微博的发布时间;微博文本内容分为三种情况:如果是原创微博,微博文本内容即用户发布的内容;如果是转发微博,微博文本内容是用户转发时附加的评论信息;如果是评论微博,微博文本内容是被评论微博的内容。根据上述流数据的设定,具体地,针对原创微博的流数据,包括:uid为用户ID,mid为微博ID,用户粉丝数,微博发布时间和内容;针对转发微博的流数据,包括:uid为用户ID,mid为转发微博ID,root_mid为被转发微博ID,root_uid为被转发用户ID,用户粉丝数,微博发布时间,微博文本内容是用户附加的评论信息;针对评论微博的流数据,包括:uid为用户ID,mid为评论微博ID,root_mid为被评论微博ID,root_uid为被评论用户ID,用户粉丝数,微博发布时间,被评论微博的内容。微博数据存储在Elasticsearch数据库中,每条微博对应数据库中的一项。步骤二、筛选具有一定影响力的媒本文档来自技高网...

【技术保护点】
1.一种基于群智传感器的网络空间群体性事件感知与检测方法,其特征在于,包括如下步骤:步骤一、收集每天的微博流数据;为每条微博设置1个标识,标识该条微博是原创微博、转发微博还是评论微博;记录每条微博的数据,包括:uid,mid,root_mid,root_uid,账号粉丝数,时间,微博文本内容;其中,uid为当前微博的账号标识ID,mid为当前微博的标识ID;root_mid分为三种情况:如果原创微博,root_mid为空;如果是转发微博,root_mid为被转发的微博ID;如果是评论微博,root_mid为被评论的微博ID;root_uid分为三种情况:如果是原创微博,root_uid为空;如果是转发微博,root_uid为被转发的账号ID;如果是评论微博,root_uid为被评论的账号ID;时间为当前微博的发布时间;微博文本内容分为三种情况:如果是原创微博,微博文本内容是用户发布的内容;如果是转发微博,微博文本内容是用户转发时附加的评论信息;如果是评论微博,微博文本内容是被评论微博的内容;步骤二、根据微博账号的影响力筛选用于感知网络空间群体性事件的传感器账号;对一个微博账号,计算该账号的影响力Power=0.4*active level+0.6*blog influence;其中,active level为账号活跃度,计算公式为:active level=0.4*exp(x1)+0.4*ln(x2)+0.2*lg(x3);x1为该账号的原创微博数量,x2为该账号转发和评论的微博数量,x3为该账号的粉丝数;blog influence为账号的微博影响力,计算公式为:blog influence=0.5*x4+0.5*x5;x4为该账号的原创微博平均被转发量,x5为该帐号的原创微博平均被评论量;步骤三、对传感器账号的微博数据进行去噪处理,剔除包含非群体性事件内容的微博;步骤四、对去噪后的微博数据按热度进行排序;使用微博的评论转发数计算微博的热度;步骤五、对排序后的微博数据进行去重处理,以事件为中心对微博进行聚合;步骤六、识别出事件涉及的时间、地点和人物,过滤掉不包含时间和地点的微博,剩下的微博是与事件相关的微博数据;步骤七、提取与事件相关的微博数据,对该事件进行分类并计算各微博内容的敏感值。...

【技术特征摘要】
2019.01.29 CN 20191008581611.一种基于群智传感器的网络空间群体性事件感知与检测方法,其特征在于,包括如下步骤:步骤一、收集每天的微博流数据;为每条微博设置1个标识,标识该条微博是原创微博、转发微博还是评论微博;记录每条微博的数据,包括:uid,mid,root_mid,root_uid,账号粉丝数,时间,微博文本内容;其中,uid为当前微博的账号标识ID,mid为当前微博的标识ID;root_mid分为三种情况:如果原创微博,root_mid为空;如果是转发微博,root_mid为被转发的微博ID;如果是评论微博,root_mid为被评论的微博ID;root_uid分为三种情况:如果是原创微博,root_uid为空;如果是转发微博,root_uid为被转发的账号ID;如果是评论微博,root_uid为被评论的账号ID;时间为当前微博的发布时间;微博文本内容分为三种情况:如果是原创微博,微博文本内容是用户发布的内容;如果是转发微博,微博文本内容是用户转发时附加的评论信息;如果是评论微博,微博文本内容是被评论微博的内容;步骤二、根据微博账号的影响力筛选用于感知网络空间群体性事件的传感器账号;对一个微博账号,计算该账号的影响力Power=0.4*activelevel+0.6*bloginfluence;其中,activelevel为账号活跃度,计算公式为:activelevel=0.4*exp(x1)+0.4*ln(x2)+0.2*lg(x3);x1为该账号的原创微博数量,x2为该账号转发和评论的微博数量,x3为该账号的粉丝数;bloginfluence为账号的微博影响力,计算公式为:bloginfluence=0.5*x4+0.5*x5;x4为该账号的原创微博平均被转发量,x5为该帐号的原创微博平均被评论量;步骤三、对传感器账号的微博数据进行去噪处理,剔除包含非群体性事件内容的微...

【专利技术属性】
技术研发人员:付培国赵忠华李红王禄恒万欣欣李欣何润龙张志豪吴俊杰袁昆林浩
申请(专利权)人:国家计算机网络与信息安全管理中心北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1