The invention discloses an abnormal user detection method for microblog based on firefly and weighted extreme learning machine. The abnormal user detection method for microblog based on firefly and weighted extreme learning machine includes the following steps: dividing the collected microblog user data into training set and test set; creating weighted extreme learning machine by using firefly algorithm; optimizing weighted extreme learning machine; Predicting abnormal users of Weibo: The user characteristics of Weibo in the test set, namely the content, information and context of Weibo, are taken as input data samples of the optimized weighted extreme learning machine, and the output value of the optimized weighted extreme learning machine is whether the user is abnormal users of Weibo or not. This method not only has high detection accuracy, but also has high intelligence. Generally, it does not need manual intervention and has high working efficiency.
【技术实现步骤摘要】
基于萤火虫和加权极限学习机的微博异常用户检测方法
本专利技术涉及一种社交网络的监控方法,具体是一种微博异常用户检测方法。
技术介绍
近年来,随着互联网的快速发展和智能终端的日益普及,在线社交网络已成为人们获取信息、传播信息和娱乐的重要渠道。由于在线社交网络结构的复杂性,群体的大规模性,信息生成的快速性,用户采纳、创建的内容对社会稳定以及人们的日常工作和生活影响深远。以微博为例,检测微博异常用户可以有利于分析、指导和监控社交网络事件,规范社交网络管理,保证社交网络安全运行和传播健康信息。目前,现有的微博异常用户检测方法主要包括以下两个方面的内容:(1)首先,对微博中发布的信息内容特征和用户特征进行分析和筛选,比如:发布信息的次数、转发信息的次数、发布信息的URLs、发布信息用户的网龄、用户每天创建新信息的次数等;(2)其次,采用机器学习算法对微博异常用户进行检测,具体做法是:将(1)中的筛选出的信息内容特征和用户特征作为机器学习算法的输入,是否为异常用户作为机器学习算法的输出。常用于检测异常用户的机器学习算法有:支持向量机,朴素贝叶斯,决策树,ELM等。目前,用于微博异常用户检的测技术存在以下有待解决的问题:(1)对微博异常用户的特征分析和筛选工作主要是针对信息内容特征和用户特征进行开展,尚未考虑到用户的上下文特征和信息;(2)微博中异常用户占微博总用户的百分之六左右,因此形成微博数据集的不平衡问题,即类别间存在数量级的差别。现有用于检测异常用户的机器学习算法的目标都是确定主导类别的数量,倾向于被大类主导而忽略小类,这将导致对不平衡数据集的分类结果不理想现象 ...
【技术保护点】
1.一种基于萤火虫和加权极限学习机的微博异常用户检测方法,其特征在于,包括以下步骤:步骤一:数据采集并分类:采集微博用户数据,并对数据进行清洗,筛选出与微博内容、用户信息、用户上下文有关的数据特征,对微博异常和非异常用户进行标记,将采集到的微博用户数据分为训练集和测试集;步骤二:创建加权极限学习机:利用萤火虫算法创建加权极限学习机;步骤三:优化加权极限学习机:加权极限学习机利用训练集中的数据进行学习,对输入权值和阈值进行调整,直到达到预计误差值时停止对加权极限学习机的训练,形成优化的加权极限学习机;步骤四:检测或预测微博异常用户:将测试集中的微博用户特征,即微博内容、用户信息和用户上下文,作为优化的加权极限学习机的输入数据样本,优化的加权极限学习机的输出值为该用户是否为微博异常用户。
【技术特征摘要】
1.一种基于萤火虫和加权极限学习机的微博异常用户检测方法,其特征在于,包括以下步骤:步骤一:数据采集并分类:采集微博用户数据,并对数据进行清洗,筛选出与微博内容、用户信息、用户上下文有关的数据特征,对微博异常和非异常用户进行标记,将采集到的微博用户数据分为训练集和测试集;步骤二:创建加权极限学习机:利用萤火虫算法创建加权极限学习机;步骤三:优化加权极限学习机:加权极限学习机利用训练集中的数据进行学习,对输入权值和阈值进行调整,直到达到预计误差值时停止对加权极限学习机的训练,形成优化的加权极限学习机;步骤四:检测或预测微博异常用户:将测试集中的微博用户特征,即微博内容、用户信息和用户上下文,作为优化的加权极限学习机的输入数据样本,优化的加权极限学习机的输出值为该用户是否为微博异常用户。2.根据权利要求1所述的基于萤火虫和加权极限学习机的微博异常用户检测方法,其特征在于:所述步骤二中,加权极限学习机的数学模型如下:其中,xp为输入样本,它为微博用户特征,βj=[βj1,...,βjm]T为输出权重,si,0<si≤1是模糊权值,wj=[wj1,...,wjn]T为输入权重,bj=[bj1,...,bjn]T为隐含层阈值,G(wj,bj,xp)为高斯激活函数,f(x)为输出值,它为微博异常/正常用户。3.根据权利要求2所述的基于萤火虫和加权极限学习机的微博异常用户检测方法,其特征在于:所述步骤二中,创建加权极限学习机的具体方法如下:步骤1:将训练集中的微博用户特征,即微博内容、用户信息和用户上下文等作为加权极限学习机的输入数据样本xp,是否是异常用户作为加权极限学习机的输出值f(x)=0或f(x)=1;然后,确定加权极限学习机的拓扑结构,随机初始化加权极限学习机的权值和阈值,其中,设输入的每个数据样本的模糊权值si,加权学习机网络输入权重wj和隐含层阈值bj;步骤2:利用萤火虫算法对加权极限学习机的网络输入权重和隐含层阈值进行编码,具体编码方法为:xi(t)表示第t代第i个萤火虫的位置,由加权极限学习机的输入权重wj和隐含层阈值bj组成,xi(t)=[w11,...,w1n,...,wk1,wk2,...,wkn,b1,...,bk];步骤3:设置迭代次数t=1,计算萤火虫的适应度函数值F,F由加权极限学习机的期望输出和预测输出之间的误差绝对值之和求得,得到的公式(1)如下:其中,n为加权极限学习机的输出层节点数,yj为加权极限学习机第j个节点的期望输出,oj为第j个节点的预测输出,k为系数;步骤4:更新萤火虫的荧光素,对种群...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。