水军群组检测方法及其装置制造方法及图纸

技术编号:30707730 阅读:36 留言:0更新日期:2021-11-10 10:58
本发明专利技术提供一种水军群组检测方法,该检测方法包括:获取网络中的评论数据信息,所述评论数据信息包括:评论产品、评论者、评论时间以及评论者对评论产品的评分;基于所述评论数据信息识别水军群组所攻击的目标产品;基于所识别出的目标产品生成候选水军群组。根据本申请的水军群组检测方法通过定位被水军群组攻击的目标产品来检测攻击每个目标产品的水军群组,可以大大提高检测水军群组的时间和空间效率。率。率。

【技术实现步骤摘要】
水军群组检测方法及其装置


[0001]本申请涉及网络安全领域,更具体地说,涉及一种水军群组检测方法及其装置。

技术介绍

[0002]在电子商务交易中,在线商品评论对用户的购买决策有重要的影响。用户一般倾向于购买交易量大、正面评论较多的产品,而不是负面评论较多的产品。因此,为了冲交易量、抬高或降低某产品的信誉、赚取更多利润,很多商家往往会雇佣虚假评论者发布大量赞美自家商品或诋毁竞争对手商品的不实评论。水军群组,是指那些有组织地协同发布虚假评论的一群人。相比水军个体,水军群组影响力更大。这是因为,水军群组规模更大,能够有组织地进行造假活动,甚至能完全控制一个产品的舆论,进而误导买方的购买决策、导致电子商务信誉系统失真、影响电商平台中卖方之间的公平竞争、降低交易环境的可信度,最终影响电子商务企业甚至整个行业的可持续发展。因此,挖掘与发现水军群体具有重要的意义。
[0003]自Jindal和Liu首次提出虚假评论(虚假评论者)检测问题以来,越来越多的研究者开始关注该问题,并作出了很多相关研究,包括基于机器学习的算法,基于概率的算法,基于行为特征的算法,基于图的算法和基于规则的算法。近年来,水军群组的检测问题吸引了越来越多的关注。
[0004]现有的水军群组检测算法可分为基于频繁项挖掘(FIM)的算法和基于拓扑图的算法。基于FIM的算法假设同一水军群组的成员倾向于为同一产品或服务共同编写虚假评论,即所谓的共评论。他们利用频繁项挖掘技术(FIM)生成候选水军群组,然后构建模型对群组的可疑度进行排序,以发现真正的水军群组。然而,共评论不一定意味着共同造假(即多人协同作业,对同一目标产品进行造假活动)。随着推荐系统性能的提高,许多消费者可能会购买相同的产品或使用同样的服务。也就是说,共评论不够可靠,容易将正常评论者误判为水军。
[0005]并且,基于频繁项目挖掘(FIM)的算法,将共同评论过相同产品的评论者作为一个候选群组。频繁项目挖掘的强度影响着FIM的可靠性。如果设置的强度太高(例如设置共评论产品数大于5),会产生一个非常紧密的群组,挖掘到的群组会大大减少。相反,如果强度太低,得到的候选群组中会包含许多正常评论者,而且这些算法并没有考虑过滤候选群组中的正常评论者。
[0006]基于拓扑图的算法建模了评论者之间的关系(在早期的研究中使用了无向图,现在经常采用有向带权图),并根据图划分算法或社区划分算法对它们进行分群组。一般来说,基于拓扑图的算法首先通过评论者的关系特征(如共评论)来构建评论者的拓扑图,然后使用图划分算法,聚类算法等等生成候选水军群组。由于评论者关系图是基于评论数据元数据构建的,因此随着评论数据的迅速增加,评论者关系图的构建和处理需要较高的时间复杂度和空间复杂度。特别是,在基于图的算法中,候选水军群组通常是通过像min-cut这样的图划分算法生成的。但是,这些由图划分算法人工划分的群组,可能与实际的水军群
组并不符。

技术实现思路

[0007]为了解决上述问题,本专利技术提供一种水军群组检测方法及其装置,通过该方法和装置不但能够提高检测效率,而且能够更好地过滤掉真实的(或无辜的)评论者,从而更准确地定位水军群组。
[0008]为了实现上述目的,提供一种水军群组检测方法,所述检测方法包括:获取网络中的评论数据信息,所述评论数据信息包括:评论产品、评论者、评论时间以及评论者对评论产品的评分;基于所述评论数据信息识别水军群组所攻击的目标产品;基于所识别出的目标产品生成候选水军群组。
[0009]进一步地,基于所述评论数据信息识别水军群组所攻击的目标产品包括:基于所述评论者对评论产品的评分计算产品评分分布异常值和产品平均分分布异常值;以及通过所述产品评分分布异常值和产品平均分分布异常值计算水军群组所攻击的目标产品的可疑值,并将所述可疑值与设定的目标产品可疑值的阈值进行比较,根据比较结果识别水军群组所攻击的目标产品
[0010]进一步地,所述基于所识别出的目标产品生成候选水军群组包括:利用核密度估计方法获取所识别出的目标产品的评论爆发区,所述评论爆发区是所识别出的目标产品的评论在短时间内激增的区域;获取所述评论爆发区中的评论者,生成候选水军群组。
[0011]进一步地,所述检测方法还包括:计算所述候选水军群组的群组造假值,将所述候选水军群组的群组尺寸与设定值进行比较,并且将所述群组造假值与设定的水军群组造假指标的阈值进行比较,根据比较结果输出候选水军群组,其中,所述群组造假值用于衡量水军群组造假程度,所述群组尺寸用于表示水军群组中评论者的数量。
[0012]进一步地,在计算所述候选水军群组的群组造假值,将所述候选水军群组的群组尺寸与设定值进行比较,并且将所述群组造假值与设定的水军群组造假指标的阈值进行比较,根据比较结果输出候选水军群组之前,所述检测方法还包括:计算每个候选水军群组的每个评论者的个体造假值,并将所述个体造假值与设定的水军个体造假指标的阈值进行比较,根据比较结果剔除可疑度低的评论者,获得净化后的候选群组,其中,所述个体造假值用于衡量评论者造假程度。
[0013]进一步地,通过如下公式计算水军群组所攻击的目标产品的可疑值S
TP
(p):
[0014]ST
P
(p)=ωS
avg
(p)+(1-ω)S
ext
(p)
[0015]其中,p表示水军群组所攻击的目标产品,S
avg
(p)为所述产品平均分分布异常值,S
ext
(p)为所述产品评分分布异常值,ω是用于平衡S
avg
(p)和S
ext
(p)权重因子,取值范围在0到1之间。
[0016]进一步地,利用核密度估计方法获取所识别出的目标产品的评论爆发区包括:计算所识别出的目标产品的生命周期;利用核密度估计方法对所识别出的目标产品的评论和评论所对应的评论时间序列进行建模;设置时间窗口尺寸,将所识别出的目标产品的生命周期分割成多个子时间窗口;选取每个子时间窗口的上界和所述子时间窗口内评论数目作
为样本点;根据计算核密度估计值,获取针对所识别出的目标产品的评论数目的极值点集;计算每个子时间窗口的平均评论数,其中,所述平均评论数=总评论数/所述子时间窗口的数量;以及判断所获得极值点集中的极值点所在的子时间窗口中的评论数是否大于平均评论数且大于1,根据判断结果获取所述评论爆发区,其中,所述评论爆发区为所获得极值点集中大于平均评论数且大于1的极值点所对应时间加上或减去设定天数所形成的区域。
[0017]进一步地,通过如下公式获得所述群组造假值GSS(g):
[0018][0019]其中,g表示由评论者所形成的群组,GTW(g)为群组时间窗,GRD(g)为群组评分偏差,GS(g)为所述群组尺寸,GRT(g)为群组评论紧密性,GOR(g)为群组一天评论数,GER(g)为群组极端评分比例,GCA(g)为群组共活跃程度,GCAR(g)为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种水军群组检测方法,其特征在于,所述检测方法包括:获取网络中的评论数据信息,所述评论数据信息包括:评论产品、评论者、评论时间以及评论者对评论产品的评分;基于所述评论数据信息识别水军群组所攻击的目标产品;以及基于所识别出的目标产品生成候选水军群组。2.根据权利要求1所述的水军群组检测方法,其特征在于,基于所述评论数据信息识别水军群组所攻击的目标产品包括:基于所述评论者对评论产品的评分计算产品评分分布异常值和产品平均分分布异常值;以及通过所述产品评分分布异常值和产品平均分分布异常值计算水军群组所攻击的目标产品的可疑值,并将所述可疑值与设定的目标产品可疑值的阈值进行比较,根据比较结果识别水军群组所攻击的目标产品。3.根据权利要求1或2所述的水军群组检测方法,其特征在于,所述基于所识别出的目标产品生成候选水军群组包括:利用核密度估计方法获取所识别出的目标产品的评论爆发区,所述评论爆发区是所识别出的目标产品的评论在短时间内激增的区域;获取所述评论爆发区中的评论者,生成候选水军群组。4.根据权利要求3所述的水军群组检测方法,其特征在于,所述检测方法还包括:计算所述候选水军群组的群组造假值,将所述候选水军群组的群组尺寸与设定值进行比较,并且将所述群组造假值与设定的水军群组造假指标的阈值进行比较,根据比较结果输出候选水军群组,其中,所述群组造假值用于衡量水军群组造假程度,所述群组尺寸用于表示水军群组中评论者的数量。5.根据权利要求4所述的水军群组检测方法,其特征在于,在计算所述候选水军群组的群组造假值,将所述候选水军群组的群组尺寸与设定值进行比较,并且将所述群组造假值与设定的水军群组造假指标的阈值进行比较,根据比较结果输出候选水军群组之前,所述检测方法还包括:计算每个候选水军群组的每个评论者的个体造假值,并将所述个体造假值与设定的水军个体造假指标的阈值进行比较,根据比较结果剔除可疑度低的评论者,获得净化后的候选群组,其中,所述个体造假值用于衡量评论者造假程度。6.根据权利要求1所述的水军群组检测方法,其特征在于,通过如下公式计算水军群组所攻击的目标产品的可疑值S
TP
(p):S
TP
(p)=ωS
avg
(p)+(1-ω)S
ext
(p)其中,p表示水军群组所攻击的目标产品,S
avg
(p)为所述产品平均分分布异常值,S
ext
(p)为所述产品评分分布异常值,ω是用于平衡S
avg
(p)和S
ext
(p)权重因子,取值范围在0到1之间。7.根据权利要求4所述的水军群组检测方法,其特征在于,利用核密度估计方法获取所识别出的目标产品的评论爆发区包括:计算所识别出的目标产品的生命周期;利用核密度估计方法对所识别出的目标产品的评论和评论所对应的评论时间序列进
行建模;设置时间窗口尺寸,将所识别出的目标产品的生...

【专利技术属性】
技术研发人员:纪淑娟张琪李金鹏许少华伊磊公茂果
申请(专利权)人:山东科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1