【技术实现步骤摘要】
一种基于行为特征与内容特征融合的水军识别方法及系统
本专利技术涉及网络安全领域,尤其涉及一种基于行为特征与内容特征融合的水军识别方法及系统。
技术介绍
网络空间(CyberSpace)已成为继陆、海、空、天四维空间之外的人类活动第五维空间,网络空间的安全会直接影响国家安全和社会发展。近年来,网络安全形势日益严峻,其中很大一部分威胁来源于随时随地影响网络社会秩序的“网络水军”(HiddenPaidPosters/InternetWaterArmy)。-“网络水军”泛指为牟利而在网络上发布倾向性评论的专职或兼职团体,他们通过绑架舆论和干扰民意以达到某种商业或其他目的,从蒙牛陷害门,陆川电影《王的盛宴》影评事件,到秦火火造谣事件,都折射出“网络水军”的恶劣影响。政府从法律制定和执法力度层面都加大了对网络水军的打击力度,IT业界和学术界也对网络水军的识别技术进行了深入的研究。现有的水军识别多采用机器学习的方法,分析已知分类用户的Profile信息、历史行为、发帖内容等,从中训练出水军用户的识别模型,进而对未知用户信息进行分类,判定哪些用户最可能是“网络水军”。当前常用于分类问题的机器学习算法包括贝叶斯网络、支持向量机(SVM)、KNN、神经网络等。本专利属于基于神经网络DBN(DeepBeliefNetwork,深度信任网络)的水军识别方法。然而在DBN训练过程中,主要面临两个方面的问题:第一,水军特征主要分为行为特征和内容特征,而且每类特征的选择并没有统一的准则。一般认为,综合考虑行为特征和内容特征的训练模型,应该对水军的刻画有着更好的效果。但如何进行融合,具体 ...
【技术保护点】
一种基于行为特征与内容特征融合的水军识别方法,其特征在于,包括如下步骤:步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;步骤2:特征融合模块利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量;步骤3:DBN模型训练模块利用用户特征向量进行DBN模型训练,得到DBN模型;步骤4:协同反馈模块对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则执行步骤6;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块;步骤5:特征融合模块和DBN模型训练模块根据调节命令调节自身相关参数,进一步进行特征融合的DBN模型训练,返回步骤4;步骤6:结束执行过程。
【技术特征摘要】
1.一种基于行为特征与内容特征融合的水军识别方法,其特征在于,包括如下步骤:步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;步骤2:特征融合模块利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量;步骤2中的具体实现为:步骤2.1:设定用户特征总维度为K;步骤2.2:根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例;步骤2.3:根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,分别确定具体选取的行为特征和内容特征,组成用户特征向量;步骤3:DBN模型训练模块利用用户特征向量进行DBN模型训练,得到DBN模型;步骤4:协同反馈模块对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则执行步骤6;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块;步骤5:特征融合模块和DBN模型训练模块根据调节命令调节自身相关参数,进一步进行特征融合的DBN模型训练,返回步骤4;步骤6:结束执行过程。2.根据权利要求1所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤3的具体实现为:步骤3.1:DBN模型训练模块根据用户特征向量利用逐层无监督贪婪学习法进行DBN模型的预训练;步骤3.2:按照BP神经网络的训练方式进行DBN模型的误差反向传播训练,经过预定迭代次数L的模型训练后,得到DBN模型。3.根据权利要求1所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤4的具体实现为:步骤4.1:协同反馈模块检测DBN模型是否收敛,如果是则执行步骤4.2;否则执行步骤4.3;步骤4.2:检测DBN模型是否达到预定的识别准确率阈值,如果是则执行步骤4.4;否则执行步骤4.3;步骤4.3:向特征融合模块发送调节行为特征维度和内容特征维度的融合情况的命令,向DBN模型训练模块发送增加模型训练的迭代次数阈值的命令;步骤4.4:结束执行过程。4.根据权利要求1所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤2.2的具体实现为:步骤2.2.1:生成一个[0,1]之间的随机数作为参数p,参数p代表行为特征维度在用户特征总维度中所占比例;步骤2.2.2:初始化用于记录迭代次数的计数器的初始值k=0;步骤2.2.3:生成一个[0,1]之间的随机数q,并与参数p进行比较,当q<p时,选取一个内容特征维度,内容特征维度数加1,当q>p时,选取一个行为特征维度,行为特征维度数加1;步骤2.2.4:k值增加1,判断是否k>=K,其中K代表用户特征总维度数,如果是则统计待选入用户特征向量的行为特征和内容特征的个数,分别记录为A和B,结束采样过程;否则返回步骤2.2.3。5.根据权利要求4所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤2.3中确定具体选取哪些行为特征的实现过程为:步骤2.3.1A:设定转移次数阈值为T,初始化转移次数t=0;步骤2.3.2A:统计采集的原始数据中行为特征的个数,记录为M,生成M个[0,1]之间的随机数作为初始状态x(0)=[x1(0),x2(0),…xi(0)...xM(0)];步骤2.3.3A:转移次数t每增加1,对每个变量xi(t),i∈{1,2...,M},按以下由联合概率...
【专利技术属性】
技术研发人员:牛温佳,李倩,管洋洋,黄超,孙卫强,李丹,胡玥,郭莉,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。