一种网络水军识别方法与系统技术方案

技术编号:30366328 阅读:29 留言:0更新日期:2021-10-16 17:33
本发明专利技术提供了一种网络水军识别方法,首先采用支持向量机算法和逻辑回归算法对数据集进行训练得到第一网络水军识别结果和第二网络水军识别结果,然后根据评论文本的情感特征、转发数量、回复数量、点赞数量、第一网络水军识别结果和第二网络水军识别结果得到CART树分类结果;最后分别提取第一网络水军识别结果的分类特征、第二网络水军识别结果的分类特征和CART树分类结果的分类特征进行加权融合得到网络水军识别结果。本发明专利技术通过将第一网络水军识别结果、第二网络水军识别结果和CART树分类结果进行加权融合,可以融合各个网络水军的行为特征,大大提高了对网络水军的识别精度。本发明专利技术还提供了一种网络水军识别系统。本发明专利技术还提供了一种网络水军识别系统。本发明专利技术还提供了一种网络水军识别系统。

【技术实现步骤摘要】
一种网络水军识别方法与系统


[0001]本专利技术属于网络水军检测
,更具体地说,是涉及一种网络水军识别方法与系统。

技术介绍

[0002]随着大数据时代的到来,社交网络的受欢迎程度已经不言而喻。在社交平台上用户可以各抒己见,但是真假难辨,舆情意见复杂多变,受干扰因素众多。比如网络水军利用恶意炒作将个体的需求转化为群体需求,将小范围事件转化为热点事件,从而混淆公众视听。倘若纵容水军恶意炒作,网民将难以信任网络媒体,网络基本体系的完整搭建也将更加困难。网络水军的出现对社会舆论的影响是巨大的,甚至可以推动社会舆论的走向,所以水军识别对于控制网络恶性行为、促进和谐发展具有重要的社会意义。
[0003]目前针对于水军识别分析和研究相对数量较少,无法获取水军潜在的分布特征和规律。由于目前公开的网络水军数据集较少,传统的网络水军识别算法数据成本高昂,且效果欠佳。目前,针对于水军识别的研究主要分为以下三种:
[0004]第一种是以热点事件为研究对象,通过对某个时间段热度最高的事件的评论文本内容进行分析。胡舜良等提出了从技术层面上来实现对水军的识别即通过用户发帖产生的文本和服务器端产生的值进行判断,从而以此来实现对水军的识别。王军博等提出了通过对评论内容进行语义分析、聚类等生成主题模型,进而分析用户评论与该主题的偏离度从而识别水军。李建超等通过每个评论与历史评论文档进行相似度计算,以同一天的最大评论数量来实现对水军的识别。
[0005]第二种是以用户特征为研究对象,通过分析正常用户和水军用户之间的差异来识别水军。张艳梅等通过用户之间互相关注数、粉丝关注比、固定时间内发布的平均微博数等6个维度进行构造微博水军分类器从而达到识别水军的目的。SHEN Hua等识别水军是通过挖掘用户微博特征、行为特征和属性特征,在此基础上使用等监督学习方法。苏雪佳等则是从发表评论用户、评论内容本身、话题评论发布时间和评论阅读者这四个方面来阐述评论有用性影响因素指标以此来设计水军识别模型。郝开青等以用户信息特征、问答对特征、用户社交网络特征、内容特征和语言学特征五个维度综合分析用户特征以此来达到水军识别的目的。
[0006]可见,现有的水军识别方法,考虑的因素较少,使水军识别方法无法收敛到全局最优点,进而导致识别效果差。

技术实现思路

[0007]本专利技术的目的在于提供一种网络水军识别方法与系统,旨在解决现有的水军识别方法识别效果差的问题。
[0008]为实现上述目的,本专利技术采用的技术方案是:一种网络水军识别方法,包括以下步骤:
[0009]步骤1:获取微博评论信息;所述微博评论信息包括评论文本、转发数量、回复数量和点赞数量;
[0010]步骤2:对所述评论文本进行特征提取生成数据集;
[0011]步骤3:采用支持向量机算法对所述数据集进行训练得到第一网络水军识别结果;
[0012]步骤4:采用逻辑回归算法对所述数据集进行训练得到第二网络水军识别结果;
[0013]步骤5:对所述数据集进行情感分析得到评论文本的情感特征;
[0014]步骤6:根据所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果得到CART树分类结果;
[0015]步骤7:分别提取所述第一网络水军识别结果的分类特征、所述第二网络水军识别结果的分类特征和所述CART树分类结果的分类特征生成第一预测结果特征、第二预测结果特征和第三预测结果特征;
[0016]步骤8:对所述第一预测结果特征、所述第二预测结果特征和所述第三预测结果特征进行加权融合得到网络水军识别结果。
[0017]优选的,所述步骤3:采用支持向量机算法对所述数据集进行训练得到第一网络水军识别结果,包括:
[0018]步骤3.1:采用公式:
[0019][0020]对所述数据集进行分类,得到分类结果;其中,(w,b)即w
T
x
i
+b表示超平面,w表示平面上的法向量,b表示超平面到原点的距离,y
i
表示样本的类别,当y
i
=+1时,与x
i
所对应的评论文本为正常用户,当y
i


1时,与x
i
所对应的评论文本为水军用户;
[0021]步骤3.2:根据所述分类结果建立第一网络水军识别模型;
[0022]步骤3.3:对所述数据集按照6:4比例分割成第一训练集和第一测试集;
[0023]步骤3.4:利用所述第一训练集对所述第一网络水军识别模型进行训练得到训练完成的第一网络水军识别模型;
[0024]步骤3.5:利用所述训练完成的第一网络水军识别模型对所述第一测试集进行水军识别得到第一网络水军识别结果。
[0025]优选的,所述第一网络水军识别模型为:
[0026][0027]其中,y

i
表示标签类别,m表示数据集长度。
[0028]优选的,所述步骤4:采用逻辑回归算法对所述数据集进行训练得到第二网络水军识别结果,包括:
[0029]步骤4.1:对所述数据集进行划分得到划分结果;其中,所述划分结果为{(x1,y1),(x2,y2),

,(x
n
,y
n
)},其中x
i
=(x1,x2,

x
n
,1)表示维度为n的特征向量,该向量末尾为1,代表偏置项;标签y
i
∈{1,0},其中y
i
=1时,与x
i
所对应的评论文本为正常用户,y
i
=0时,与x
i
所对应的评论文本为为正常用户;
[0030]步骤4.2:根据所述划分结果构建预测模型;其中所述预测模型为:
[0031][0032]其中,w表示权重向量;
[0033]步骤4.3:根据所述预测模型建立似然函数;其中,所述似然函数为:
[0034][0035]步骤4.4:对所述数据集按照8:2比例分割成第二训练集和第二测试集;
[0036]步骤4.5:利用所述第二训练集对所述似然函数进行优化训练得到训练完成的预测模型;
[0037]步骤4.6:利用所述训练完成的预测模型对所述第二测试集进行分类得到第二网络水军识别结果。
[0038]优选的,所述步骤6:根据所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果得到CART树分类结果,包括:
[0039]步骤6.1:对所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果进行划分得到CART数据集;其中,所述CART数据集为:
[0040]{(a1,b1,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络水军识别方法,其特征在于,包括以下步骤:步骤1:获取微博评论信息;所述微博评论信息包括评论文本、转发数量、回复数量和点赞数量;步骤2:对所述评论文本进行特征提取生成数据集;步骤3:采用支持向量机算法对所述数据集进行训练得到第一网络水军识别结果;步骤4:采用逻辑回归算法对所述数据集进行训练得到第二网络水军识别结果;步骤5:对所述数据集进行情感分析得到评论文本的情感特征;步骤6:根据所述评论文本的情感特征、所述转发数量、所述回复数量、所述点赞数量、所述第一网络水军识别结果和所述第二网络水军识别结果得到CART树分类结果;步骤7:分别提取所述第一网络水军识别结果的分类特征、所述第二网络水军识别结果的分类特征和所述CART树分类结果的分类特征生成第一预测结果特征、第二预测结果特征和第三预测结果特征;步骤8:对所述第一预测结果特征、所述第二预测结果特征和所述第三预测结果特征进行加权融合得到网络水军识别结果。2.如权利要求1所述的一种网络水军识别方法,其特征在于,所述步骤3:采用支持向量机算法对所述数据集进行训练得到第一网络水军识别结果,包括:步骤3.1:采用公式:对所述数据集进行分类,得到分类结果;其中,(w,b)即w
T
x
i
+b表示超平面,w表示平面上的法向量,b表示超平面到原点的距离,x
i
表示结点数据,y
i
表示样本的类别,当y
i
=+1时,与x
i
所对应的评论文本为正常用户,当y
i


1时,与x
i
所对应的评论文本为水军用户;步骤3.2:根据所述分类结果建立第一网络水军识别模型;步骤3.3:对所述数据集按照6∶4比例分割成第一训练集和第一测试集;步骤3.4:利用所述第一训练集对所述第一网络水军识别模型进行训练得到训练完成的第一网络水军识别模型;步骤3.5:利用所述训练完成的第一网络水军识别模型对所述第一测试集进行水军识别得到第一网络水军识别结果。3.如权利要求2所述的一种网络水军识别方法,其特征在于,所述第一网络水军识别模型为:其中,y

i
表示标签类别,m表示数据集长度。4.如权利要求1所述的一种网络水军识别方法,其特征在于,所述步骤4:采用逻辑回归算法对所述数据集进行训练得到第二网络水军识别结果,包括:步骤4.1:对所述数据集进行划分得到划分结果;其中,所述划分结果为{(x1,y1),(x2,y2),...,(x
n
,y
n
)},其中x
i
=(x1,x2,...x
n
,1)表示维度为n的特征向量,该向量末尾为1,代表偏置项;标签y
i
∈{1,0},其中y
i
=1时,与x
i
所对应的评论文本为正常用户,y
i
=0时,与x
i
所对应的评论文本为为正常用户;步骤4.2:根据所述划分结果构建预测模型;其中所述预测模型为:其中,w表示权重向量;步骤4.3:根据所述预测模型建立似然函数;其中,所述似然函数为:步骤4.4:对所述数据集按照8∶2比例分割成第二训练集和第二测试集;步骤4.5:利用所述第二训练集对所述似然函数进行优化训练得到训练完成的预测模型;步骤4.6:利用所述训练完成的预测模型对所述第二测试集进行分类得到第二网络水军识别结果。5.如权...

【专利技术属性】
技术研发人员:肖玉芝冶忠林李明原张伟
申请(专利权)人:青海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1