一种高效的垃圾评论用户群组检测方法技术

技术编号：20566707 阅读：59 留言：0更新日期：2019-03-14 09:29

本发明专利技术公开了一种高效的垃圾评论用户群组检测方法，其基于电商网站上产品的评论数据，得到候选群组(每个群组要求至少由2个人组成且至少共同评论3件产品)，提取出异构网络中每个产品节点、用户节点、群组节点的基于自身的基础垃圾信息特征和基于关系的垃圾影响力特征，通过考虑每个节点自身的基础垃圾信息和其他两种类型节点对它的垃圾信息影响，得到每个节点的垃圾信息，包括群组节点的垃圾信息，将高于某个阈值的群组识别为垃圾评论用户群组。同时，本发明专利技术采用优化后的GroupRank算法，能够达到的精确率、性能更高。

全部详细技术资料下载

【技术实现步骤摘要】
一种高效的垃圾评论用户群组检测方法
本专利技术属于数据挖掘
，具体涉及一种高效的垃圾评论用户群组检测方法。
技术介绍
随着移动互联网时代的到来和物联网的构建日趋完善，网络购物渐渐成为一种新型重要消费方式，越来越多用户生成的内容出现在网络应用中，大多数消费者会在购物后在电商平台发表自己的购物体会和使用心得以及对产品的看法。一方面，据美国Cone公司2011年的调查报告，64％的用户在购买行为之前会参考已有的用户评论，用户发表的评论会对潜在消费者的消费行为产生一定影响而具有商业价值；另一方面，用户的评论包含了消费者对产品各方面的评价及喜好程度等大量的信息，这些信息可以帮助企业更便捷地了解消费者喜好和消费需求，发现产品质量等问题，了解自身商品性能的优势与不足。对于电商服务平台而言，通过商品评论信息了解消费者最关注的商品特性，在商品评论系统中引导消费者更全面的评价商品，进而提高评论信息质量和网站口碑。电子商务网站的评论源于用户对某个特定产品或服务的真实体验，直接影响了未来的客户的购买决定，积极的观点可以为组织和个人带来巨大的经济收益和财富。因为同种商品消费者更倾向于光顾销量多、评论人数多、好评多的店铺，然而在利益的驱动下，商家常会雇佣水军进行虚假交易然后刷评论数量或进行满N字好评返现等活动，有人会发表虚假的评论，试图对某些产品进行不公平的评论，比如编写好评来促进产品，或者故意差评来损害某个产品的名誉，因此来误导消费者，这些虚假的评论就叫做垃圾评论。与其他类型的垃圾(例如垃圾电子邮件)不同，垃圾评论非常难以发现，主要原因是垃圾评论用户很容易伪装自己，导致依靠基...

【技术保护点】
1.一种高效的垃圾评论用户群组检测方法，包括如下步骤：(1)对电商产品的评论数据进行预处理；(2)基于预处理后的评论数据提取群组、产品以及用户的基础特征并整合成向量形式，所述群组由至少2个用户组成且这些用户至少共同评论过3件产品；(3)提取群组、产品以及用户相互之间对应的三组关系特征并整合成矩阵形式；(4)根据基础特征和关系特征通过GroupRank算法计算出所有群组的垃圾信息分值；(5)设置合适的阈值，通过垃圾信息分值与阈值之间的比较将所有群组分类为垃圾群组和非垃圾群组。

【技术特征摘要】
1.一种高效的垃圾评论用户群组检测方法，包括如下步骤：(1)对电商产品的评论数据进行预处理；(2)基于预处理后的评论数据提取群组、产品以及用户的基础特征并整合成向量形式，所述群组由至少2个用户组成且这些用户至少共同评论过3件产品；(3)提取群组、产品以及用户相互之间对应的三组关系特征并整合成矩阵形式；(4)根据基础特征和关系特征通过GroupRank算法计算出所有群组的垃圾信息分值；(5)设置合适的阈值，通过垃圾信息分值与阈值之间的比较将所有群组分类为垃圾群组和非垃圾群组。2.根据权利要求1所述的垃圾评论用户群组检测方法，其特征在于：所述步骤(1)中对评论数据进行预处理包括对于低频用户、低质评论和低销量商品进行过滤；其中对于低质评论，则通过评论长度及丰富度筛选掉信息量过低即低于设定阈值的评论，再根据人工评判结合机器学习去除垃圾评论和广告评论；对于低频用户，即这些用户发表过少即低于设定阈值的有效评论，无法进行准确识别，则剔除这些用户发表的评论；对于低销量商品，即如果一个商品的评论很少即低于设定阈值，则认为这个商品基本上不存在刷评论行为，剔除该商品的所有评论。3.根据权利要求1所述的垃圾评论用户群组检测方法，其特征在于：所述步骤(2)中提取群组、产品以及用户的基础特征，其中群组的基础特征为群组成员在所有共同评论的产品上的行为信息相似度，这些行为信息包括评...

【专利技术属性】
技术研发人员：张小旭，邓水光，李莹，吴健，尹建伟，吴朝晖，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人