当前位置: 首页 > 专利查询>湖北大学专利>正文

基于人工免疫危险理论的微博水军检测方法及检测系统技术方案

技术编号:20745540 阅读:30 留言:0更新日期:2019-04-03 10:27
本发明专利技术属于微博网络技术领域,公开了一种基于人工免疫危险理论的微博水军检测方法及检测系统,将人工免疫的思想应用于微博用户行为特征的检测中,使用聚焦网络爬虫获取微博用户数据;通过基于用户行为特征的分析方法刻画定义网络水军行为,区分网络新型水军和正常用户的特征属性;最终将人工免疫危险理论的信号处理机制应用于网络水军检测中,采用危险理论的树突状细胞算法DCA检测微博中的水军用户。本发明专利技术使用基于Python的聚焦网络爬虫的方式获取微博用户数据,并以结构化的数据存储到数据库,该方式较容易获取数据集,能够合理地采集用户的各类行为数据,具有爬取周期短、数据质量高等优点。

【技术实现步骤摘要】
基于人工免疫危险理论的微博水军检测方法及检测系统
本专利技术属于微博网络
,尤其涉及一种基于人工免疫危险理论的微博水军检测方法及检测系统。
技术介绍
目前,业内常用的现有技术是这样的:微博网络水军是指一些受到利益驱动,为达到如混淆信息的真实性,引导错误的舆论导向,损害公民利益等目的,通过操纵软件机器人或水军账号,在微博中制造、传播虚假意见和垃圾信息等垃圾信息产生者的总称。微博水军检测即运用一些数据挖掘技术,定义高区分度特征或行为模式来发现潜藏的网络水军。目前主要的水军检测方法如下:基于内容特征的水军检测方法:包括文本分类、文本情感分析以及文本倾向性分析等方法,通过计算微博内容与垃圾信息相似度,或评论内容与垃圾评论的相似度,来识别网络水军。基于环境特征的水军检测方法:通过获取网络环境中TCP脚印信息、IP黑名单信息、机器人网站命令追踪以及路由信息等联系起来对水军的网络级特征进行分析,实现水军追踪。基于用户特征的水军检测方法:通过分析变化的网络用户的关系特征和行为特征,选取相关特征属性训练分类器,然后用训练好的分类器进行微博网络水军的检测。综上所述,现有技术存在的问题是:基于内容特征的水军检测方法,由于网络环境的复杂化和各类网络平台实名制的约束,水军由以往的系统批量操作生成,逐渐转变为一种被真实用户操作的新型水军,后者制造的垃圾信息趋向于正常用户,不再具有显著的可识别特征,因此该方法现已不能有效发现网络新型水军。基于环境特征的水军检测方法,由于TCP脚印信息、IP黑名单信息及路由信息等网络环境特征信息无法被修改掩饰,因此该检测方法识别准确率较高,但网络环境类数据集较难获取,因此该方案可推广性较低基于用户特征的水军检测方法,该方法能够很好地发现潜藏的网络水军,且较为适用于社交网络平台环境下的水军检测,但存在特征描述不全面、对多指标的海量数据处理效率较低、且需要大量训练数据集等问题。解决上述技术问题的难度和意义:(1)由于网络水军自我隐蔽意识的增强,单纯的基于内容特征的水军检测会漏掉大多以正常文本特征作为假象传播的新型网络水军,实用性较低。本专利技术从微博用户的注册、发布微博、转发、评论、点赞等使用过程中挖掘出微博水军特定的行为模式,对水军行为特征进行深入分析,挖掘出能区分水军和非水军的重要属性,这些属性对微博水军特征刻画有重要作用。(2)传统的基于环境特征的水军检测方法在数据获取方面存在很大的困难,可推广性较低。本专利技术选取聚焦网络爬虫策略,通过模拟登陆获取新浪微博的通行证登陆方式,并制订URL搜索策略,获取指定链接下的Html进行保存,最后对Html进行解析,将其转化为结构化数据存储到数据库中。本专利技术中的数据获取策略爬取效率高,并能根据需求设计爬取指定页面的具体内容,可推广性高,为实现水军检测提供了良好的数据支撑。(3)目前水军的行为逐渐复杂化,选取局部的、单一方面的特征进行水军的检测,会存在特征描述不全面,容易导致识别存在误差等问题。本专利技术以微博用户的基本行为(注册信息,注册时间等),用户发布行为(发布微博等),用户关注行为(关注,粉丝等),用户转发行为(转发,评论,点赞等)作为出发点,对微博用户的行为特征进行较为全面、深入的研究,并将最终研究结果应用到微博水军检测中。本专利技术对微博水军的特征描述更全面,减少了水军检测的识别误差,对于微博水军检测中特征更全面的选取有重要作用。(4)传统的基于用户特征的水军分类检测方法需要大量训练数据集,检测效率低且适用性不高。本专利技术将人工免疫危险理论的信号处理机制应用于网络水军检测,采用危险理论的树突状细胞算法(DCA)来检测微博中的水军用户,DCA算法具有不依赖知识库、计算效率高、可减少误报率和漏报率等特点。本专利技术基于DCA算法的特点实现了水军检测,具有计算效率高,无需训练数据集和检测准确率较高等优点。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于人工免疫危险理论的微博水军检测方法及检测系统。本专利技术的目的在于将人工免疫危险理论的思想引入到用户行为特征的分析中,来有效地识别微博水军用户。通过分析新浪微博水军的行为特征,选取微博总数、微博等级、是否认证、阳光信用、粉丝数等特征属性,将以上属性的分析结果作为区别水军与正常用户的特征信号,并基于树突状细胞算法(DendriticCellsAlgorithm,DCA)实现新浪微博水军的识别。社交网络环境中,各类用户行为所导致的用户异常和网络安全等问题,与人工免疫系统在入侵检测问题中的应用具有较高的相似性,如利用人工免疫危险理论中的树突状细胞算法(DendriticCellAlgorithm,DCA),构建集成入侵检测(RSAI-IID)模型,或进行垃圾邮件群发检测与Web服务器异常检测等,其中树突状细胞算法具有计算效率高、可减少误报率和漏报率、无需训练数据集等特点。本专利技术是这样实现的,一种基于人工免疫危险理论的微博水军检测方法,所述基于人工免疫危险理论的微博水军检测方法包括:使用聚焦网络爬虫获取微博用户行为数据,利用人工免疫对微博用户行为特征进行检测;对用户行为特征进行分析并定义网络水军行为,区分网络新型水军和正常用户的特征属性;采用人工免疫危险理论的树突状细胞算法DCA检测微博中的网络水军用户行为。进一步,所述基于人工免疫危险理论的微博水军检测方法具体包括:步骤一,微博数据的获取:使用聚焦网络爬虫,对微博的用户信息爬取;专利技术的实验数据通过调用新浪微博API接口和Python语言编写聚焦网络爬虫两种方式进行获取,并对这些数据进行去重、去空等预处理;步骤二,特征的选取:在提取出用户微博中粉丝数、关注数、微博总数、原创微博数、是否认证、微博等级、有无简介、注册时间、阳光信用、互相关注数、参与话题数、评论数、转发数和点赞数14种用户行为特征后,通过多次对比实验与总结将14中原始用户行为特征融合为阳光信用、活跃度、身份评价、影响力、粉丝关注比、原创微博比6个指标;步骤三,抗原信号定义:将阳光信用SC、活跃度AT、身份评价IE、影响力CI、粉丝关注比FF、原创微博比OM6个指标进行规格化处理,映射函数如下:其中x是原始信号值,当x∈[m,n]时,进行线性映射,当x∈[n,∞)时,信号取最大值10;步骤四,基于DCA算法的微博水军检测:以微博用户作为抗原,首先初始化抗原采集数目与树突状细胞种群;随机在微博用户检测样本中选择未被识别的微博用户,根据微博用户对应的病原体相关分子模式信号、危险信号、安全信号和致炎信号作为输入信号;根据计算公式如下及其对应的权值矩阵计算得出CSMI、SEM、MAT的浓度,对提呈同一抗原的DC细胞所得出的CSM、SEMI、MAT浓度进行累加;DCA算法的计算公式如下:公式中(1+IS)为放大信号,输入信号PAMP、DS、SS对应的值和权值分别是CP、CD、CS以及WP、WD、WS,输出信号CSM,SEM和MAT对应的值分别为C[CSM],C[SEM]和C[MAT]。根据输入信号值和权值矩阵计算出CSM,SEM和MAT值,并进行累加。若CSM大于迁移阈值,则比较SEMI和MAT的大小,根据比较结果标记该DC的状态以及该DC采集的抗原状态;如果抗原判定总次数达到抗原判别阈值,则计算细胞成熟抗原值MCAV本文档来自技高网
...

【技术保护点】
1.一种基于人工免疫危险理论的微博水军检测方法,其特征在于,所述基于人工免疫危险理论的微博水军检测方法包括:使用聚焦网络爬虫获取微博用户行为数据,利用人工免疫对微博用户行为特征进行检测;对用户行为特征进行分析并定义网络水军行为,区分网络新型水军和正常用户的特征属性;采用人工免疫危险理论的树突状细胞算法DCA检测微博中的网络水军用户行为。

【技术特征摘要】
1.一种基于人工免疫危险理论的微博水军检测方法,其特征在于,所述基于人工免疫危险理论的微博水军检测方法包括:使用聚焦网络爬虫获取微博用户行为数据,利用人工免疫对微博用户行为特征进行检测;对用户行为特征进行分析并定义网络水军行为,区分网络新型水军和正常用户的特征属性;采用人工免疫危险理论的树突状细胞算法DCA检测微博中的网络水军用户行为。2.如权利要求1所述的基于人工免疫危险理论的微博水军检测方法,其特征在于,基于人工免疫危险理论的微博水军检测方法具体包括:步骤一,微博数据的获取:使用聚焦网络爬虫,对微博的用户信息爬取;步骤二,特征的选取:在提取出用户微博中粉丝数、关注数、微博总数、原创微博数、是否认证、微博等级、有无简介、注册时间、阳光信用、互相关注数、参与话题数、评论数、转发数和点赞数14种用户行为特征后,通过多次对比实验与总结将14中原始用户行为特征融合为阳光信用、活跃度、身份评价、影响力、粉丝关注比、原创微博比6个指标;步骤三,抗原信号定义:将阳光信用SC、活跃度AT、身份评价IE、影响力CI、粉丝关注比FF、原创微博比OM6个指标进行规格化处理,映射函数如下:其中x是原始信号值,当x∈[m,n]时,进行线性映射,当x∈[n,∞)时,信号取最大值10;步骤四,基于DCA算法的微博水军检测:以微博用户作为抗原,首先初始化抗原采集数目与树突状细胞种群;随机在微博用户检测样本中选择未被识别的微博用户,根据微博用户对应的病原体相关分子模式信号、危险信号、安全信号和致炎信号作为输入信号;根据计算公式如下及其对应的权值矩阵计算得出CSMI、SEM、MAT的浓度,对提呈同一抗原的DC细胞所得出的CSM、SEMI、MAT浓度进行累加;DCA算法的计算公式如下:公式中(1+IS)为放大信号,输入信号PAMP、DS、SS对应的值和权值分别是CP、CD、CS以及WP、WD、WS,输出信号CSM,SEM和MAT对应的值分别为C[CSM],C[SEM]和C[MAT];根据输入信号值和权值矩阵计算出CSM,SEM和MAT值,并进行累加。若CSM大于迁移阈值,则比较SEM和MAT的大小,根据比较结果标记该DC的状态以及该DC采集的抗原状态。如果抗原判定总次数达到抗原判别阈值,则计算细胞成熟抗原值MCAV,公式为MCAV=MAT/(SEM+MAT),其中SEM和MAT为输出信号SEM、MAT的值;比较MCAV与异常阈值的大小,如果MCAV较大,则抗原标记为异常,该微博用户为水军,否则标记为正常。3.如权利要求2所述的基于人工免疫危险理论的微博水军检测方法,其特征在于,步骤一中,爬取方法包括模拟登陆、获取用户地址链接和HTML代码解析;(1)模拟登陆:在网址认证成功后,进行登陆;(2)获取用户地址链接:根据新浪微博对用户认证类型的划分,有未经新浪认证的普通用户、标识为黄V或金V的个人认证用户、标识为蓝V的企业机构认证用户;不同类型认证的用户主页或二级页面有不同的URL链接模板;(3)HTML代码解析:经过预登陆和目标URL定义后,利用Python语言中自带的urllib、urllib2库,对URL的Html进行多种解析操作,或利用Python语言的一个高级爬虫开发框架Scrapy进行Html页面信息定位;进行web页面的信息抓取。4.如权利要求2所述的基于人工免疫危险理论的微博水军检测方法,其特征在于,步骤二中,融合方法包括:1)阳光信用SC分为极低300-419、较低420-450、一般451-570、较好571-690、极好691-900等级,在融合中分别使用数值1-5表示;2)活跃度AT,包括微博总数M、参与话题数T、注册时间Z、当前时间N,其中“N-Z”结果以“天”为单位...

【专利技术属性】
技术研发人员:杨超秦廷栋项振辉陈炳秋何先先
申请(专利权)人:湖北大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1