基于萤火虫和加权极限学习机的微博异常用户检测方法技术

技术编号:20916785 阅读:33 留言:0更新日期:2019-04-20 09:44
本发明专利技术公开了一种基于萤火虫和加权极限学习机的微博异常用户检测方法,基于萤火虫和加权极限学习机的微博异常用户检测方法,具体步骤如下:将采集到的微博用户数据分为训练集和测试集;利用萤火虫算法创建加权极限学习机;优化加权极限学习机;检测或预测微博异常用户:将测试集中的微博用户特征,即微博内容、用户信息和用户上下文,作为优化的加权极限学习机的输入数据样本,优化的加权极限学习机的输出值为该用户是否为微博异常用户。该方法不仅检测的精度高,而且智能化程度高,一般不需要人工介入,工作效率高。

Abnormal User Detection Method of Microblog Based on Firefly and Weighted Extreme Learning Machine

The invention discloses an abnormal user detection method for microblog based on firefly and weighted extreme learning machine. The abnormal user detection method for microblog based on firefly and weighted extreme learning machine includes the following steps: dividing the collected microblog user data into training set and test set; creating weighted extreme learning machine by using firefly algorithm; optimizing weighted extreme learning machine; Predicting abnormal users of Weibo: The user characteristics of Weibo in the test set, namely the content, information and context of Weibo, are taken as input data samples of the optimized weighted extreme learning machine, and the output value of the optimized weighted extreme learning machine is whether the user is abnormal users of Weibo or not. This method not only has high detection accuracy, but also has high intelligence. Generally, it does not need manual intervention and has high working efficiency.

【技术实现步骤摘要】
基于萤火虫和加权极限学习机的微博异常用户检测方法
本专利技术涉及一种社交网络的监控方法,具体是一种微博异常用户检测方法。
技术介绍
近年来,随着互联网的快速发展和智能终端的日益普及,在线社交网络已成为人们获取信息、传播信息和娱乐的重要渠道。由于在线社交网络结构的复杂性,群体的大规模性,信息生成的快速性,用户采纳、创建的内容对社会稳定以及人们的日常工作和生活影响深远。以微博为例,检测微博异常用户可以有利于分析、指导和监控社交网络事件,规范社交网络管理,保证社交网络安全运行和传播健康信息。目前,现有的微博异常用户检测方法主要包括以下两个方面的内容:(1)首先,对微博中发布的信息内容特征和用户特征进行分析和筛选,比如:发布信息的次数、转发信息的次数、发布信息的URLs、发布信息用户的网龄、用户每天创建新信息的次数等;(2)其次,采用机器学习算法对微博异常用户进行检测,具体做法是:将(1)中的筛选出的信息内容特征和用户特征作为机器学习算法的输入,是否为异常用户作为机器学习算法的输出。常用于检测异常用户的机器学习算法有:支持向量机,朴素贝叶斯,决策树,ELM等。目前,用于微博异常用户检的测技术存在以下有待解决的问题:(1)对微博异常用户的特征分析和筛选工作主要是针对信息内容特征和用户特征进行开展,尚未考虑到用户的上下文特征和信息;(2)微博中异常用户占微博总用户的百分之六左右,因此形成微博数据集的不平衡问题,即类别间存在数量级的差别。现有用于检测异常用户的机器学习算法的目标都是确定主导类别的数量,倾向于被大类主导而忽略小类,这将导致对不平衡数据集的分类结果不理想现象。还有的用于微博异常用户检的测技术,需要人工介入,故工作效率不高,比如,国家知识产权局于2017年2月8日公开了公开号为CN103150374B的专利文献,一种识别微博异常用户的方法,其特征在于,包括:步骤1,获取多个用户微博数据,并将用户微博数据存储入数据库中;步骤2,根据从数据库中获取的用户微博数据,以用户行为的时间间隔的统计分布做为用户的行为时间特征,并根据行为时间特征生成行为时间特征向量和界定参数;所述步骤2具体包括:步骤21,根据从数据库中获取的用户微博数据,以用户行为的时间间隔的统计分布做为用户的行为时间特征;步骤22,采用聚类算法将所有的认证用户的行为时间特征聚成一类,取其聚类中心为正常用户行为时间特征向量;步骤23,手动标注出异常用户,并爬取异常用户的微博数据,再根据获得的微博数据计算异常用户的行为时间特征向量;步骤24,采用聚类算法将异常用户的行为时间特征向量聚成一类,取其聚类中心作为异常用户行为时间特征向量;步骤25,计算异常用户行为时间特征向量与正常用户行为特征向量的聚类中心值的Kullback-Leibler距离,再根据计算结果通过最小二乘方误差法确定正常用户的特征空间范围,并根据特征空间范围确定界定参数;步骤3,计算正常用户行为时间特征向量与待测用户行为时间特征向量的Kullback-Leibler距离,若计算出的Kullback-Leibler距离超出界定参数,则判定待测用户为异常用户,否则为正常用户;步骤4,对已判定的异常用户的微博内容进行关键词抽取,并将抽取的关键词以用户标签的形式进行展示。
技术实现思路
本专利技术的目的是克服现有技术中的不足,提供一种基于萤火虫和加权极限学习机的微博异常用户检测方法,该方法不仅检测的精度高,而且智能化程度高,一般不需要人工介入,工作效率高。为实现上述目的,本专利技术所采用的技术方案是:基于萤火虫和加权极限学习机的微博异常用户检测方法,具体步骤如下:步骤一:数据采集并分类:采集微博用户数据,并对数据进行清洗,筛选出与微博内容、用户信息、用户上下文有关的数据特征,对微博异常和非异常用户进行标记,将采集到的微博用户数据分为训练集和测试集;步骤二:创建加权极限学习机:利用萤火虫算法创建加权极限学习机;步骤三:优化加权极限学习机:加权极限学习机利用训练集中的数据进行学习,对输入权值和阈值进行调整,直到达到预计误差值时停止对加权极限学习机的训练,形成优化的加权极限学习机;步骤四:检测或预测微博异常用户:将测试集中的微博用户特征,即微博内容、用户信息和用户上下文,作为优化的加权极限学习机的输入数据样本,优化的加权极限学习机的输出值为该用户是否为微博异常用户。优选的,所述步骤二中,加权极限学习机的数学模型如下:其中,xp为输入样本(微博用户特征),βj=[βj1,...,βjm]T为输出权重,si,0<si≤1是模糊权值,wj=[wj1,...,wjn]T为输入权重,bj=[bj1,...,bjn]T为隐含层阈值,G(wj,bj,xp)为高斯激活函数,f(x)为输出值(微博异常/正常用户)。优选的,对萤火虫算法进行改进,设计出自适应步长的萤火虫算法,以有效提高萤火虫算法的计算精度和收敛速度,避免出现局部寻优等问题。本专利技术的有益效果:与现有技术相比,本专利技术具有如下的优点与技术效果:(1)基于微博内容、用户信息和用户上下文内容对微博用户进行描述,能准确的说明异常用户的特征,提高了微博异常用户检测的精度。(2)设计了自适应步长的萤火虫算法,以有效提高萤火虫算法的计算精度和收敛速度,避免出现局部寻优等问题,提高了工作效率。(3)加权极限学习机对初始参数较为敏感,往往需要有经验的技术人员根据业务场景的特点进行反复的实验调参,本专利技术使用了自适应萤火虫群优化算法对加权极限学习机的初始参数进行自动优化和调节,减少了人工干预,明显了提高了工作效率。(4)加权极限学习机能有效解决数据集的不平衡问题,在微博异常用户所占比率很低时,也能获得优良的检测性能。附图说明利用附图对本专利技术作进一步说明,但附图中的实施例不构成对本专利技术的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图:图1为本专利技术的流程图;图2为创建加权极限学习机的流程图。具体实施方式为了使本领域的技术人员更好地理解本专利技术的技术方案,下面结合附图和具体实施例对本专利技术作进一步详细的描述,需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。如图1所示,一种基于萤火虫和加权极限学习机的微博异常用户检测方法,具体步骤如下:步骤一:数据采集并分类:采集微博用户数据,并对数据进行清洗,筛选出与微博内容、用户信息、用户上下文有关的数据特征,对微博异常和非异常用户进行标记,将采集到的微博用户数据分为训练集和测试集;步骤二:创建加权极限学习机:利用萤火虫算法创建加权极限学习机;步骤三:优化加权极限学习机:加权极限学习机利用训练集中的数据进行学习,对输入权值和阈值进行调整,直到达到预计误差值时停止对加权极限学习机的训练,形成优化的加权极限学习机;步骤四:检测或预测微博异常用户:将测试集中的微博用户特征,即微博内容、用户信息和用户上下文,作为优化的加权极限学习机的输入数据样本,优化的加权极限学习机的输出值为该用户是否为微博异常用户。如图2所示,所述步骤二中,创建加权极限学习机的具体方法如下:步骤1:将训练集中的微博用户特征,即微博内容、用户信息和用户上下文等作为加权极限学习机的输入数据样本xp,是否是异常用户作为加权极限本文档来自技高网
...

【技术保护点】
1.一种基于萤火虫和加权极限学习机的微博异常用户检测方法,其特征在于,包括以下步骤:步骤一:数据采集并分类:采集微博用户数据,并对数据进行清洗,筛选出与微博内容、用户信息、用户上下文有关的数据特征,对微博异常和非异常用户进行标记,将采集到的微博用户数据分为训练集和测试集;步骤二:创建加权极限学习机:利用萤火虫算法创建加权极限学习机;步骤三:优化加权极限学习机:加权极限学习机利用训练集中的数据进行学习,对输入权值和阈值进行调整,直到达到预计误差值时停止对加权极限学习机的训练,形成优化的加权极限学习机;步骤四:检测或预测微博异常用户:将测试集中的微博用户特征,即微博内容、用户信息和用户上下文,作为优化的加权极限学习机的输入数据样本,优化的加权极限学习机的输出值为该用户是否为微博异常用户。

【技术特征摘要】
1.一种基于萤火虫和加权极限学习机的微博异常用户检测方法,其特征在于,包括以下步骤:步骤一:数据采集并分类:采集微博用户数据,并对数据进行清洗,筛选出与微博内容、用户信息、用户上下文有关的数据特征,对微博异常和非异常用户进行标记,将采集到的微博用户数据分为训练集和测试集;步骤二:创建加权极限学习机:利用萤火虫算法创建加权极限学习机;步骤三:优化加权极限学习机:加权极限学习机利用训练集中的数据进行学习,对输入权值和阈值进行调整,直到达到预计误差值时停止对加权极限学习机的训练,形成优化的加权极限学习机;步骤四:检测或预测微博异常用户:将测试集中的微博用户特征,即微博内容、用户信息和用户上下文,作为优化的加权极限学习机的输入数据样本,优化的加权极限学习机的输出值为该用户是否为微博异常用户。2.根据权利要求1所述的基于萤火虫和加权极限学习机的微博异常用户检测方法,其特征在于:所述步骤二中,加权极限学习机的数学模型如下:其中,xp为输入样本,它为微博用户特征,βj=[βj1,...,βjm]T为输出权重,si,0<si≤1是模糊权值,wj=[wj1,...,wjn]T为输入权重,bj=[bj1,...,bjn]T为隐含层阈值,G(wj,bj,xp)为高斯激活函数,f(x)为输出值,它为微博异常/正常用户。3.根据权利要求2所述的基于萤火虫和加权极限学习机的微博异常用户检测方法,其特征在于:所述步骤二中,创建加权极限学习机的具体方法如下:步骤1:将训练集中的微博用户特征,即微博内容、用户信息和用户上下文等作为加权极限学习机的输入数据样本xp,是否是异常用户作为加权极限学习机的输出值f(x)=0或f(x)=1;然后,确定加权极限学习机的拓扑结构,随机初始化加权极限学习机的权值和阈值,其中,设输入的每个数据样本的模糊权值si,加权学习机网络输入权重wj和隐含层阈值bj;步骤2:利用萤火虫算法对加权极限学习机的网络输入权重和隐含层阈值进行编码,具体编码方法为:xi(t)表示第t代第i个萤火虫的位置,由加权极限学习机的输入权重wj和隐含层阈值bj组成,xi(t)=[w11,...,w1n,...,wk1,wk2,...,wkn,b1,...,bk];步骤3:设置迭代次数t=1,计算萤火虫的适应度函数值F,F由加权极限学习机的期望输出和预测输出之间的误差绝对值之和求得,得到的公式(1)如下:其中,n为加权极限学习机的输出层节点数,yj为加权极限学习机第j个节点的期望输出,oj为第j个节点的预测输出,k为系数;步骤4:更新萤火虫的荧光素,对种群...

【专利技术属性】
技术研发人员:张志洁
申请(专利权)人:岭南师范学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1