一种基于行为特征与内容特征融合的水军识别方法及系统技术方案

技术编号:9955680 阅读:140 留言:0更新日期:2014-04-23 12:01
本发明专利技术涉及一种基于行为特征与内容特征融合的水军识别方法及系统,其方法为,采集包括用户行为特征和内容特征的原始数据;利用马尔可夫链蒙特卡罗随机模型进行行为特征维度和内容特征维度的融合,组成用户特征向量;利用用户特征向量进行DBN模型训练,得到DBN模型;对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则结束;否则根据检测结果生成相应的调节命令,分别调节特征融合阶段和DBN模型训练阶段的相关参数;在DBN训练过程中根据识别准确率不断优化行为特征与内容特征的比例分配,具体特征的选取,以及对DBN模型训练过程中迭代次数的调整,达到较优的训练效果,最终提高识别准确率和识别方法的自适应性。

【技术实现步骤摘要】
一种基于行为特征与内容特征融合的水军识别方法及系统
本专利技术涉及网络安全领域,尤其涉及一种基于行为特征与内容特征融合的水军识别方法及系统。
技术介绍
网络空间(CyberSpace)已成为继陆、海、空、天四维空间之外的人类活动第五维空间,网络空间的安全会直接影响国家安全和社会发展。近年来,网络安全形势日益严峻,其中很大一部分威胁来源于随时随地影响网络社会秩序的“网络水军”(HiddenPaidPosters/InternetWaterArmy)。-“网络水军”泛指为牟利而在网络上发布倾向性评论的专职或兼职团体,他们通过绑架舆论和干扰民意以达到某种商业或其他目的,从蒙牛陷害门,陆川电影《王的盛宴》影评事件,到秦火火造谣事件,都折射出“网络水军”的恶劣影响。政府从法律制定和执法力度层面都加大了对网络水军的打击力度,IT业界和学术界也对网络水军的识别技术进行了深入的研究。现有的水军识别多采用机器学习的方法,分析已知分类用户的Profile信息、历史行为、发帖内容等,从中训练出水军用户的识别模型,进而对未知用户信息进行分类,判定哪些用户最可能是“网络水军”。当前常用于分类问题的机器学习算法包括贝叶斯网络、支持向量机(SVM)、KNN、神经网络等。本专利属于基于神经网络DBN(DeepBeliefNetwork,深度信任网络)的水军识别方法。然而在DBN训练过程中,主要面临两个方面的问题:第一,水军特征主要分为行为特征和内容特征,而且每类特征的选择并没有统一的准则。一般认为,综合考虑行为特征和内容特征的训练模型,应该对水军的刻画有着更好的效果。但如何进行融合,具体选择那些行为特征和选择那些内容特征加入到训练模型,目前缺乏有效的选择准则和融合方法。第二,DBN模型训练前需要确定输入特征的维度,且训练过程中不能改变具体选取的特征。然而,随着水军的变化,特征也是变化的,因此人工指定特征维度进行学习,是无法有效刻画特征变化和实现识别方法的动态适配。因此,如何摒弃人工特征的选择,用不断反馈调节的方式在特征选择上进行调节和优化,决定使用哪些维度,而放弃哪些维度,需要研究有效地非人工选择的自动特征融合选取。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于行为特征和内容特征融合的水军识别方法及系统。本专利技术解决上述技术问题的技术方案如下:一种基于行为特征与内容特征融合的水军识别方法,包括如下步骤:步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;步骤2:特征融合模块利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量;步骤3:DBN模型训练模块利用用户特征向量进行DBN模型训练,得到DBN模型;步骤4:协同反馈模块对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则执行步骤6;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块;步骤5:特征融合模块和DBN模型训练模块根据调节命令调节自身相关参数,进一步进行特征融合的DBN模型训练,返回步骤4;步骤6:结束执行过程。本专利技术的有益效果是:本专利技术利用了马尔可夫链蒙特卡罗随机模型作为用户特征维度的随机选择模型,并引入反馈调节机制,在DBN训练过程中根据识别准确率不断优化行为特征与内容特征的比例分配,具体行为特征和内容特征的选取,以及对DBN模型训练过程中迭代次数的调整,达到较优的训练效果,最终提高识别准确率和识别方法的自适应性。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,步骤2中的具体实现为:步骤2.1:设定用户特征总维度为K;步骤2.2:根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例;步骤2.3:根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,分别确定具体选取的行为特征和内容特征,组成用户特征向量。进一步,步骤3的具体实现为:步骤3.1:DBN模型训练模块根据用户特征向量利用逐层无监督贪婪学习法进行DBN模型的预训练;步骤3.2:按照BP神经网络的训练方式进行DBN模型的误差反向传播训练,经过预定迭代次数L的模型训练后,得到DBN模型。进一步,步骤4的具体实现为:步骤4.1:协同反馈模块检测DBN模型是否收敛,如果是则执行步骤4.2;否则执行步骤4.3;步骤4.2:检测DBN模型是否达到预定的识别准确率阈值,如果是则执行步骤4.4;否则执行步骤4.3;步骤4.3:向特征融合模块发送调节行为特征维度和内容特征维度的融合情况的命令,向DBN模型训练模块发送增加模型训练的迭代次数阈值的命令;步骤4.4:结束执行过程。进一步,步骤2.2的具体实现为:步骤2.2.1:生成一个[0,1]之间的随机数作为参数p,参数p代表行为特征维度在用户特征总维度中所占比例;步骤2.2.2:初始化用于记录迭代次数的计数器的初始值k=0;步骤2.2.3:生成一个[0,1]之间的随机数q,并与参数p进行比较,当q<p时,选取一个内容特征维度,内容特征维度数加1,当q>p时,选取一个行为特征维度,行为特征维度数加1;步骤2.2.4:k值增加1,判断是否k>=K,其中K代表用户特征总维度数,如果是则统计待选入用户特征向量的行为特征和内容特征的个数,分别记录为A和B,结束采样过程;否则返回步骤2.2.3。进一步,步骤2.3中确定具体选取哪些行为特征的实现过程为:步骤2.3.1A:设定转移次数阈值为T,初始化转移次数t=0;步骤2.3.2A:统计采集的原始数据中行为特征的个数,记录为M,生成M个[0,1]之间的随机数作为初始状态x(0)=[x1(0),x2(0),…xi(0)...xM(0)];步骤2.3.3A:转移次数t每增加1,对每个变量xi(t),i∈{1,2...,M},按以下由联合概率分布得到的条件概率分布公式进行如下计算:P(xi(t+1)|x1(t+1),x2(t+1),…xi-1(0),xi+1(t)...xM(t))其中,联合概率分布的均值为X;步骤2.3.4A:判断是否t<T,如果是则返回步骤2.3.3A,否则得到P(T)=[P(x1(T)),P(x2(T)),…P(xi(T)),...P(xM(T))];步骤2.3.5A:根据步骤2.2.4中计算的待选入用户特征向量的行为特征个数A,选取前A个对应概率P(xi(T))最大的行为特征作为选入用户特征向量的行为特征。进一步,步骤2.3中确定具体选取哪些内容特征的实现过程为:步骤2.3.1B:设定转移次数阈值为T,初始化转移次数t=0;步骤2.3.2B:统计采集的原始数据中内容特征的个数,记录为N,生成N个[0,1]之间的随机数作为初始状态y(0)=[y1(0),y2(0),…yj(0)...yN(0)];步骤2.3.3B:转移次数t每增加1,对每个变量,j∈{1,2...,N},按以下条件概率对其采样:P(yi(t+1)|y1(t+1),y2(t+1),…yj-1(0),yj+1(t)...yN(t))步骤2.3.4B:判断是否t<T,如果是则返回步骤2.3.3B本文档来自技高网
...
一种基于行为特征与内容特征融合的水军识别方法及系统

【技术保护点】
一种基于行为特征与内容特征融合的水军识别方法,其特征在于,包括如下步骤:步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;步骤2:特征融合模块利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量;步骤3:DBN模型训练模块利用用户特征向量进行DBN模型训练,得到DBN模型;步骤4:协同反馈模块对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则执行步骤6;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块;步骤5:特征融合模块和DBN模型训练模块根据调节命令调节自身相关参数,进一步进行特征融合的DBN模型训练,返回步骤4;步骤6:结束执行过程。

【技术特征摘要】
1.一种基于行为特征与内容特征融合的水军识别方法,其特征在于,包括如下步骤:步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;步骤2:特征融合模块利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量;步骤2中的具体实现为:步骤2.1:设定用户特征总维度为K;步骤2.2:根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例;步骤2.3:根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,分别确定具体选取的行为特征和内容特征,组成用户特征向量;步骤3:DBN模型训练模块利用用户特征向量进行DBN模型训练,得到DBN模型;步骤4:协同反馈模块对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则执行步骤6;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块;步骤5:特征融合模块和DBN模型训练模块根据调节命令调节自身相关参数,进一步进行特征融合的DBN模型训练,返回步骤4;步骤6:结束执行过程。2.根据权利要求1所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤3的具体实现为:步骤3.1:DBN模型训练模块根据用户特征向量利用逐层无监督贪婪学习法进行DBN模型的预训练;步骤3.2:按照BP神经网络的训练方式进行DBN模型的误差反向传播训练,经过预定迭代次数L的模型训练后,得到DBN模型。3.根据权利要求1所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤4的具体实现为:步骤4.1:协同反馈模块检测DBN模型是否收敛,如果是则执行步骤4.2;否则执行步骤4.3;步骤4.2:检测DBN模型是否达到预定的识别准确率阈值,如果是则执行步骤4.4;否则执行步骤4.3;步骤4.3:向特征融合模块发送调节行为特征维度和内容特征维度的融合情况的命令,向DBN模型训练模块发送增加模型训练的迭代次数阈值的命令;步骤4.4:结束执行过程。4.根据权利要求1所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤2.2的具体实现为:步骤2.2.1:生成一个[0,1]之间的随机数作为参数p,参数p代表行为特征维度在用户特征总维度中所占比例;步骤2.2.2:初始化用于记录迭代次数的计数器的初始值k=0;步骤2.2.3:生成一个[0,1]之间的随机数q,并与参数p进行比较,当q<p时,选取一个内容特征维度,内容特征维度数加1,当q>p时,选取一个行为特征维度,行为特征维度数加1;步骤2.2.4:k值增加1,判断是否k>=K,其中K代表用户特征总维度数,如果是则统计待选入用户特征向量的行为特征和内容特征的个数,分别记录为A和B,结束采样过程;否则返回步骤2.2.3。5.根据权利要求4所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤2.3中确定具体选取哪些行为特征的实现过程为:步骤2.3.1A:设定转移次数阈值为T,初始化转移次数t=0;步骤2.3.2A:统计采集的原始数据中行为特征的个数,记录为M,生成M个[0,1]之间的随机数作为初始状态x(0)=[x1(0),x2(0),…xi(0)...xM(0)];步骤2.3.3A:转移次数t每增加1,对每个变量xi(t),i∈{1,2...,M},按以下由联合概率...

【专利技术属性】
技术研发人员:牛温佳李倩管洋洋黄超孙卫强李丹胡玥郭莉
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1