【技术实现步骤摘要】
基于人工免疫危险理论的微博水军检测方法及检测系统
本专利技术属于微博网络
,尤其涉及一种基于人工免疫危险理论的微博水军检测方法及检测系统。
技术介绍
目前,业内常用的现有技术是这样的:微博网络水军是指一些受到利益驱动,为达到如混淆信息的真实性,引导错误的舆论导向,损害公民利益等目的,通过操纵软件机器人或水军账号,在微博中制造、传播虚假意见和垃圾信息等垃圾信息产生者的总称。微博水军检测即运用一些数据挖掘技术,定义高区分度特征或行为模式来发现潜藏的网络水军。目前主要的水军检测方法如下:基于内容特征的水军检测方法:包括文本分类、文本情感分析以及文本倾向性分析等方法,通过计算微博内容与垃圾信息相似度,或评论内容与垃圾评论的相似度,来识别网络水军。基于环境特征的水军检测方法:通过获取网络环境中TCP脚印信息、IP黑名单信息、机器人网站命令追踪以及路由信息等联系起来对水军的网络级特征进行分析,实现水军追踪。基于用户特征的水军检测方法:通过分析变化的网络用户的关系特征和行为特征,选取相关特征属性训练分类器,然后用训练好的分类器进行微博网络水军的检测。综上所述,现有技术存在的问题是:基于内容特征的水军检测方法,由于网络环境的复杂化和各类网络平台实名制的约束,水军由以往的系统批量操作生成,逐渐转变为一种被真实用户操作的新型水军,后者制造的垃圾信息趋向于正常用户,不再具有显著的可识别特征,因此该方法现已不能有效发现网络新型水军。基于环境特征的水军检测方法,由于TCP脚印信息、IP黑名单信息及路由信息等网络环境特征信息无法被修改掩饰,因此该检测方法识别准确率较高,但网络环 ...
【技术保护点】
1.一种基于人工免疫危险理论的微博水军检测方法,其特征在于,所述基于人工免疫危险理论的微博水军检测方法包括:使用聚焦网络爬虫获取微博用户行为数据,利用人工免疫对微博用户行为特征进行检测;对用户行为特征进行分析并定义网络水军行为,区分网络新型水军和正常用户的特征属性;采用人工免疫危险理论的树突状细胞算法DCA检测微博中的网络水军用户行为。
【技术特征摘要】
1.一种基于人工免疫危险理论的微博水军检测方法,其特征在于,所述基于人工免疫危险理论的微博水军检测方法包括:使用聚焦网络爬虫获取微博用户行为数据,利用人工免疫对微博用户行为特征进行检测;对用户行为特征进行分析并定义网络水军行为,区分网络新型水军和正常用户的特征属性;采用人工免疫危险理论的树突状细胞算法DCA检测微博中的网络水军用户行为。2.如权利要求1所述的基于人工免疫危险理论的微博水军检测方法,其特征在于,基于人工免疫危险理论的微博水军检测方法具体包括:步骤一,微博数据的获取:使用聚焦网络爬虫,对微博的用户信息爬取;步骤二,特征的选取:在提取出用户微博中粉丝数、关注数、微博总数、原创微博数、是否认证、微博等级、有无简介、注册时间、阳光信用、互相关注数、参与话题数、评论数、转发数和点赞数14种用户行为特征后,通过多次对比实验与总结将14中原始用户行为特征融合为阳光信用、活跃度、身份评价、影响力、粉丝关注比、原创微博比6个指标;步骤三,抗原信号定义:将阳光信用SC、活跃度AT、身份评价IE、影响力CI、粉丝关注比FF、原创微博比OM6个指标进行规格化处理,映射函数如下:其中x是原始信号值,当x∈[m,n]时,进行线性映射,当x∈[n,∞)时,信号取最大值10;步骤四,基于DCA算法的微博水军检测:以微博用户作为抗原,首先初始化抗原采集数目与树突状细胞种群;随机在微博用户检测样本中选择未被识别的微博用户,根据微博用户对应的病原体相关分子模式信号、危险信号、安全信号和致炎信号作为输入信号;根据计算公式如下及其对应的权值矩阵计算得出CSMI、SEM、MAT的浓度,对提呈同一抗原的DC细胞所得出的CSM、SEMI、MAT浓度进行累加;DCA算法的计算公式如下:公式中(1+IS)为放大信号,输入信号PAMP、DS、SS对应的值和权值分别是CP、CD、CS以及WP、WD、WS,输出信号CSM,SEM和MAT对应的值分别为C[CSM],C[SEM]和C[MAT];根据输入信号值和权值矩阵计算出CSM,SEM和MAT值,并进行累加。若CSM大于迁移阈值,则比较SEM和MAT的大小,根据比较结果标记该DC的状态以及该DC采集的抗原状态。如果抗原判定总次数达到抗原判别阈值,则计算细胞成熟抗原值MCAV,公式为MCAV=MAT/(SEM+MAT),其中SEM和MAT为输出信号SEM、MAT的值;比较MCAV与异常阈值的大小,如果MCAV较大,则抗原标记为异常,该微博用户为水军,否则标记为正常。3.如权利要求2所述的基于人工免疫危险理论的微博水军检测方法,其特征在于,步骤一中,爬取方法包括模拟登陆、获取用户地址链接和HTML代码解析;(1)模拟登陆:在网址认证成功后,进行登陆;(2)获取用户地址链接:根据新浪微博对用户认证类型的划分,有未经新浪认证的普通用户、标识为黄V或金V的个人认证用户、标识为蓝V的企业机构认证用户;不同类型认证的用户主页或二级页面有不同的URL链接模板;(3)HTML代码解析:经过预登陆和目标URL定义后,利用Python语言中自带的urllib、urllib2库,对URL的Html进行多种解析操作,或利用Python语言的一个高级爬虫开发框架Scrapy进行Html页面信息定位;进行web页面的信息抓取。4.如权利要求2所述的基于人工免疫危险理论的微博水军检测方法,其特征在于,步骤二中,融合方法包括:1)阳光信用SC分为极低300-419、较低420-450、一般451-570、较好571-690、极好691-900等级,在融合中分别使用数值1-5表示;2)活跃度AT,包括微博总数M、参与话题数T、注册时间Z、当前时间N,其中“N-Z”结果以“天”为单位...
【专利技术属性】
技术研发人员:杨超,张,秦廷栋,项振辉,陈炳秋,何先先,
申请(专利权)人:湖北大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。