一种基于概率图模型的微博水军识别方法技术

技术编号:8656014 阅读:449 留言:1更新日期:2013-05-01 23:42
一种基于概率图模型的微博水军识别方法,它有三大步骤。本发明专利技术是将用户的属性和以往使用微博的行为量化成特征指标,分别为用户的属性特征和行为特征,通过构建属性特征与行为特征之间的概率图结构,将用户为水军的概率视为此图结构中的隐变量,利用样本学习图模型的参数,利用学习后的概率图模型预测其它用户为水军的概率。本发明专利技术以如何在微博平台中自动识别水军用户为研究对象,提供了一种自动、有效、快速的识别微博水军用户的方法,它使得在微博平台大数据量的情况下能够进行有效的进行识别。它在数据挖掘技术领域里具有较好的实用价值和广阔地应用前景。

【技术实现步骤摘要】

本专利技术涉及,它应用于WEB数据挖掘、舆情监控、谣言检测、水军识别等方面,属于数据挖掘

技术介绍
微博凭借传播速度快、用户多、便捷等特点风靡整个世界,已经成为最具有影响力的社会媒体。目前中国网民使用微博的比例已经过半,并且成为微博用户世界第一大国。随着微博平台用户量剧增,传播效应的不断扩大,微博也正在成为“网络水军”的主战场,这里称为微博水军(以下简称水军)。水军利用微博传播媒介,制造公共话题,扭曲网络舆论,并进行各种微博事件或产品的策划、推动、引导,使得某些特定事件、个人、单位的影响力飙升,达到引导舆论导向、获取自我营利等目的。目前对于判别水军的研究多从传播学的角度出发,单纯的分析微博转发和评论的时序特征、内容特征或者用户的属性特征,然后定性地判别水军,而并没有定量的模型和方法。比如通过分析目标微博的转发时序,通过时序特征寻找某些时刻点,分析这些时刻点附近转发用户的属性特征从而判定这些用户是否为水军。定性分析的方法在实际应用中有以下几点不足:(I)定性分析的方法大都需要手工的判别,需要人力的介入。(2)定性分析的方法在大数据量的微博平台中无论是在准确性还是实现性方面都很难取得很好的效果。(3)定性分析的方法需要分析很多相关因素,无法达到快速有效的效果。
技术实现思路
1、目的:以如何在微博平台中自动识别水军用户为研究对象,提出了。本专利技术的目的是提供一种自动、有效、快速的识别微博水军用户的方法,它使得在微博平台大数据量的情况下能够进行有效的进行识别。本专利技术的原理是:将用户的属性和以往使用微博的行为量化成特征指标,分别为用户的属性特征和行为特征,通过构建属性特征与行为特征之间的概率图结构,将用户为水军的概率视为此图结构中的隐变量,利用样本学习图模型的参数,利用学习后的概率图模型预测其它用户为水军的概率。2、技术方案:本专利技术提供的技术方案如下:本专利技术是,该方法具体步骤如下:步骤一:假设用户U通过量化后的属性特征向量为:c=(xi,x2,…,xn),行为特征为:W Y2,…,yj。概率图模型结构如图3,c表 示用户的属性特征向量,z表示用户是水军的概率,I表示用户行为特征。设定义4种用户属性特征c=(Xl,X2, x3, x4)和4种用户行为特征Iy1, y2, y3, yj,其中X1为用户类别,x2为用户活跃度,x3为用户粉丝值,X4为用户好友值为微博原创比,y2为非空转发比,y3为原创微博交互性,y4为非营销活动参与性。例如:用户u经过量化后的用户类别值为0.4,用户活跃度为1.4,用户粉丝值为3.0,用户好友值为5.6,则用户的属性特征向量为Cu= (0.4,1.4,3.0,5.6);对此用户进行行为特征量化所得其微博原创比为0.1,非空转发比为0.3,原创微博交互性为0.5,非营销活动参与性为0.4,则其各行为特征分别取值为0.1, 0.3,0.5,0.4。步骤二:用户的属性特征初步决定着用户为水军的可能性,属性特征越高的用户,其为水军的概率越低。用常用的高斯分布来刻画当给定用户属性特征值后该用户为水军的条件概率:本文档来自技高网...

【技术保护点】
一种基于概率图模型的微博水军识别方法,其特征在于:该方法具体步骤如下:步骤一:设用户u通过量化后的属性特征向量为:c=(x1,x2,…,xn),行为特征为:{y1,y2,…,ym},定义4种用户属性特征c=(x1,x2,x3,x4)和4种用户行为特征{y1,y2,y3,y4},其中x1为用户类别,x2为用户活跃度,x3为用户粉丝值,x4为用户好友值;y1为微博原创比,y2为非空转发比,y3为原创微博交互性,y4为非营销活动参与性;例如:用户u经过量化后的用户类别值为0.4,用户活跃度为1.4,用户粉丝值为3.0,用户好友值为5.6,则用户的属性特征向量为cu=(0.4,1.4,3.0,5.6);对此用户进行行为特征量化所得其微博原创比为0.1,非空转发比为0.3,原创微博交互性为0.5,非营销活动参与性为0.4,则其各行为特征分别取值为0.1,0.3,0.5,0.4;步骤二:用户的属性特征初步决定着用户为水军的可能性,属性特征越高的用户,其为水军的概率越低;用常用的高斯分布来刻画当给定用户属性特征值后该用户为水军的条件概率:P(z(i)|x1(i),x2(i)...xn(i))=N(wTc(x1(i),x2(i)...xn(i)),v),v=0.5式中符号说明如下:c为量化后的用户属性特征向量,w为每个特征参数的权重,v为高斯分布的参数值,此处设定为0.5;同时,用户是水军的概率决定了其各行为特征值的高低,用户为水军的概率越高其行为特征值越低;用Logistic函数来刻画当给定用户为水军的概率后其各行为特征值为1的概率:P(yt(i)=1|z(i))=11+e-(θtz(i)+b),b=-1式中符号说明如下:z为用户是水军的概率,θt为水军概率决定每一个行为特征的权重参数,b为Logistic函数的偏置参数,此处设定为?1;由于可能产生过度拟合的问题,用高斯先验概率作为w的先验概率:P(w)∝e-λw2wTw假设学习样本的数量为D,利用刚才所述用户属性特征,行为特征与用户为水军的概率之间的关系结构,构建概率图模型如下:P(D|w)P(w)=(Πi∈DP(z(i),y(i)|x1(i),x2(i)...xn(i),w))P(w)=Πi∈DP(z(i)|x1(i),x2(i)...xn(i),w)Πt=1P(y(i)=1|z(i))∝Πi∈D(e-12v(wTc(i)-z(i))2Πt=1me-(θtz(i)+b)(1-yt(i))1+e-(θtz(i)+b))*e-λw2wTw利用最大似然估计方法、EM算法、矩估计方法在一定数量的样本数据上进行学习,可以估计w,θ的取值和z的取值,其中w,θ为模型的参数值,z为样本数据中各用户为水军的概率取值;步骤三:利用得到参数取值后的模型,对于新的用户u,通过模型参数w和其属性特征cu={x1,x2,x3,x4},即能得出此用户为水军的概率z=w.cu;在得到每个用户其为水军概率z的取值后,由于在实际情况中,属性特征值越大的用户其为水军的概率越小,用户为水军的概率越小其各行为特征值越大,所以,需要对通过模型得到的用户为水军的概率值z取负,以满足实际情况;同时为了对用户进行是否为水军的分类,使用样本学习结果刻画的ROC曲线所得的最好阈值或者通过指定阈值方法,寻找阈值z′使得满足zi>z′的用户i即为水军用户。...

【技术特征摘要】
1.一种基于概率图模型的微博水军识别方法,其特征在于:该方法具体步骤如下: 步骤一:设用户U通过量化后的属性特征向量为:C=(Xl,X2,…,Xn),行为特征为:{yi, Y2,…,yj,定义4种用户属性特征C=U1, X2, X3, X4)和4种用户行为特征{yp y2, y3, y4},其中X1为用户类别,X2为用户活跃度,X3为用户粉丝值,X4为用户好友值;yi为微博原创比,Y2为非空转发比,Y3为原创微博交互性,Y4为非营销活动参与性; 例如:用户u经过量化后的用户类...

【专利技术属性】
技术研发人员:韩忠明万月亮许峰敏
申请(专利权)人:北京工商大学
类型:发明
国别省市:

网友询问留言 已有1条评论
  • 来自[日本] 2014年06月25日 15:17
    感觉很有用的样子,通过概率模型来分析水军。
    0
1