当前位置: 首页 > 专利查询>浙江大学专利>正文

一种高效的垃圾评论用户群组检测方法技术

技术编号:20566707 阅读:59 留言:0更新日期:2019-03-14 09:29
本发明专利技术公开了一种高效的垃圾评论用户群组检测方法,其基于电商网站上产品的评论数据,得到候选群组(每个群组要求至少由2个人组成且至少共同评论3件产品),提取出异构网络中每个产品节点、用户节点、群组节点的基于自身的基础垃圾信息特征和基于关系的垃圾影响力特征,通过考虑每个节点自身的基础垃圾信息和其他两种类型节点对它的垃圾信息影响,得到每个节点的垃圾信息,包括群组节点的垃圾信息,将高于某个阈值的群组识别为垃圾评论用户群组。同时,本发明专利技术采用优化后的GroupRank算法,能够达到的精确率、性能更高。

【技术实现步骤摘要】
一种高效的垃圾评论用户群组检测方法
本专利技术属于数据挖掘
,具体涉及一种高效的垃圾评论用户群组检测方法。
技术介绍
随着移动互联网时代的到来和物联网的构建日趋完善,网络购物渐渐成为一种新型重要消费方式,越来越多用户生成的内容出现在网络应用中,大多数消费者会在购物后在电商平台发表自己的购物体会和使用心得以及对产品的看法。一方面,据美国Cone公司2011年的调查报告,64%的用户在购买行为之前会参考已有的用户评论,用户发表的评论会对潜在消费者的消费行为产生一定影响而具有商业价值;另一方面,用户的评论包含了消费者对产品各方面的评价及喜好程度等大量的信息,这些信息可以帮助企业更便捷地了解消费者喜好和消费需求,发现产品质量等问题,了解自身商品性能的优势与不足。对于电商服务平台而言,通过商品评论信息了解消费者最关注的商品特性,在商品评论系统中引导消费者更全面的评价商品,进而提高评论信息质量和网站口碑。电子商务网站的评论源于用户对某个特定产品或服务的真实体验,直接影响了未来的客户的购买决定,积极的观点可以为组织和个人带来巨大的经济收益和财富。因为同种商品消费者更倾向于光顾销量多、评论人数多、好评多的店铺,然而在利益的驱动下,商家常会雇佣水军进行虚假交易然后刷评论数量或进行满N字好评返现等活动,有人会发表虚假的评论,试图对某些产品进行不公平的评论,比如编写好评来促进产品,或者故意差评来损害某个产品的名誉,因此来误导消费者,这些虚假的评论就叫做垃圾评论。与其他类型的垃圾(例如垃圾电子邮件)不同,垃圾评论非常难以发现,主要原因是垃圾评论用户很容易伪装自己,导致依靠基础的文本语言特点和行为特征来检测垃圾评论的算法达到了一个瓶颈,识别垃圾评论和垃圾评论用户是很困难的。目前关于垃圾评论领域的研究基本都是围绕垃圾评论和垃圾评论用户的检测展开的,然而一个垃圾评论用户群组具有更强的破坏性,由于一个群组会有很多成员编写虚假评论,这样便可以完全控制一个产品的评论情感。而且发现相比垃圾评论和垃圾评论用户的检测难度来说,检测垃圾评论用户群组更加容易一些,所以说,检测垃圾评论用户群组具有更重要的意义。由于现有的垃圾评论方法中提出的评论用户行为不足以捕捉垃圾评论用户群组,因此有必要寻找一个更复杂和互补的框架。
技术实现思路
鉴于上述,本专利技术提供了一种高效的垃圾评论用户群组检测方法,其通过捕捉评论用户群组、评论用户和产品之间的相互关系,采用异构网络迭代算法GroupRank对电商平台的产品评论数据进行数据挖掘,通过考虑产品节点和用户节点对群组节点的影响以及群组自身的基础垃圾信息,得到群组的垃圾信息,对垃圾评论用户群组进行识别。一种高效的垃圾评论用户群组检测方法,包括如下步骤:(1)对电商产品的评论数据进行预处理;(2)基于预处理后的评论数据提取群组、产品以及用户的基础特征并整合成向量形式,所述群组由至少2个用户组成且这些用户至少共同评论过3件产品;(3)提取群组、产品以及用户相互之间对应的三组关系特征并整合成矩阵形式;(4)根据基础特征和关系特征通过GroupRank算法计算出所有群组的垃圾信息分值;(5)设置合适的阈值,通过垃圾信息分值与阈值之间的比较将所有群组分类为垃圾群组和非垃圾群组。进一步地,所述步骤(1)中对评论数据进行预处理包括对于低频用户、低质评论和低销量商品进行过滤;其中对于低质评论,则通过评论长度及丰富度筛选掉信息量过低即低于设定阈值的评论,再根据人工评判结合机器学习去除垃圾评论和广告评论;对于低频用户,即这些用户发表过少即低于设定阈值的有效评论,无法进行准确识别,则剔除这些用户发表的评论;对于低销量商品,即如果一个商品的评论很少即低于设定阈值,则认为这个商品基本上不存在刷评论行为,剔除该商品的所有评论。进一步地,所述步骤(2)中提取群组、产品以及用户的基础特征,其中群组的基础特征为群组成员在所有共同评论的产品上的行为信息相似度(相似度越高说明越有可能是统一按照任务来对产品进行垃圾评论的群组),这些行为信息包括评论文本、评分、时间窗口和评论位置;用户的基础特征为用户整体评论的一致性(垃圾评论用户一般都是刻意刷好评,因此评论一致性比较高),该一致性体现在用户评分、评论时间以及评论位置这几个方面;产品的基础特征为评论的偏差程度,由于产品会存在刻意刷好评或差评的评论,这些偏离真实情况的评论在整体评论中产生偏差感,其包括在评分以及评论时间方面的偏差。进一步地,所述步骤(3)为了量化群组、产品、用户三类实体之间的垃圾影响力大小,从群组-产品、用户-产品、群组-用户这三组关系中抽取出符合每组关系恰当的关系特征。进一步地,所述步骤(4)中的GroupRank算法如下:其中:S1~S5均为中间变量,BU、BP、BG分别为用户、产品、群组的基础特征向量,APG、AUP、AGU分别为群组-产品、用户-产品、群组-用户的关系特征矩阵;和分别为第t-1次和第t次迭代过程中的群组垃圾信息向量,其包含所有群组的垃圾信息分值;α为设定的权重系数,T表示矩阵转置,t为大于0的自然数,||||1为1范数;初始化当算法收敛并输出δ为设定的收敛阈值,||||∞为无穷范数。优选地,由于迭代过程中用到了大量的矩阵运算,非常消耗计算资源,故分别预先对S1~S5以及进行标准化,通过对GroupRank算法中的6组公式进行转化得到W为通过转化整合得到的变换矩阵。本专利技术基于电商网站上产品的评论数据,得到候选群组(每个群组要求至少由2个人组成且至少共同评论3件产品),提取出异构网络中每个产品节点、用户节点、群组节点的基于自身的基础垃圾信息特征和基于关系的垃圾影响力特征,通过考虑每个节点自身的基础垃圾信息和其他两种类型节点对它的垃圾信息影响,得到每个节点的垃圾信息,包括群组节点的垃圾信息,将高于某个阈值的群组识别为垃圾评论用户群组;因此,本专利技术具有以下有益技术效果:(1)本专利技术基于PageRank中网页节点在网络结构中传递网页权威值的思想,提出一个由三类节点组成的异构网络模型来捕获评论用户群组、评论用户和产品之间的一个更加复杂的关系,比其他的垃圾评论用户群组识别算法更加全面的分析了各种可能的因素。(2)本专利技术基于异构网络模型进行迭代计算,由这3类节点间的关系,可以推出一个节点的垃圾信息通过垃圾影响力影响另一个节点的垃圾信息,同时还考虑了节点的基础垃圾信息并使用调节因子对其加权,来调整基础垃圾信息和基于关系的垃圾影响的占比。(3)本专利技术采用优化后的GroupRank算法,在亚马逊中国的电商网站上的产品的120万条评论数据集上进行了实验,并与该领域常用的其他识别方法进行对比,实验表明该算法能够达到的精确率、性能更高。附图说明图1为本专利技术方法的整体流程示意图。图2为GroupRank算法的流程示意图。图3为GroupRank算法的加速优化示意图。具体实施方式为了更为具体地描述本专利技术,下面结合附图及具体实施方式对本专利技术的技术方案进行详细说明。本专利技术垃圾评论用户群组检测方法如图1所示,主要分为六个部分:评论读取、数据预处理和分析、基础特征提取、关系特征提取、GroupRank迭代计算和算法加速、识别垃圾群组,其中:评论读取的部分主要定义了数据输入输出的接口,可以随时通过复写接本文档来自技高网
...

【技术保护点】
1.一种高效的垃圾评论用户群组检测方法,包括如下步骤:(1)对电商产品的评论数据进行预处理;(2)基于预处理后的评论数据提取群组、产品以及用户的基础特征并整合成向量形式,所述群组由至少2个用户组成且这些用户至少共同评论过3件产品;(3)提取群组、产品以及用户相互之间对应的三组关系特征并整合成矩阵形式;(4)根据基础特征和关系特征通过GroupRank算法计算出所有群组的垃圾信息分值;(5)设置合适的阈值,通过垃圾信息分值与阈值之间的比较将所有群组分类为垃圾群组和非垃圾群组。

【技术特征摘要】
1.一种高效的垃圾评论用户群组检测方法,包括如下步骤:(1)对电商产品的评论数据进行预处理;(2)基于预处理后的评论数据提取群组、产品以及用户的基础特征并整合成向量形式,所述群组由至少2个用户组成且这些用户至少共同评论过3件产品;(3)提取群组、产品以及用户相互之间对应的三组关系特征并整合成矩阵形式;(4)根据基础特征和关系特征通过GroupRank算法计算出所有群组的垃圾信息分值;(5)设置合适的阈值,通过垃圾信息分值与阈值之间的比较将所有群组分类为垃圾群组和非垃圾群组。2.根据权利要求1所述的垃圾评论用户群组检测方法,其特征在于:所述步骤(1)中对评论数据进行预处理包括对于低频用户、低质评论和低销量商品进行过滤;其中对于低质评论,则通过评论长度及丰富度筛选掉信息量过低即低于设定阈值的评论,再根据人工评判结合机器学习去除垃圾评论和广告评论;对于低频用户,即这些用户发表过少即低于设定阈值的有效评论,无法进行准确识别,则剔除这些用户发表的评论;对于低销量商品,即如果一个商品的评论很少即低于设定阈值,则认为这个商品基本上不存在刷评论行为,剔除该商品的所有评论。3.根据权利要求1所述的垃圾评论用户群组检测方法,其特征在于:所述步骤(2)中提取群组、产品以及用户的基础特征,其中群组的基础特征为群组成员在所有共同评论的产品上的行为信息相似度,这些行为信息包括评...

【专利技术属性】
技术研发人员:张小旭邓水光李莹吴健尹建伟吴朝晖
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1