一种互联网商家虚假热度检测方法及系统技术方案

技术编号:36207751 阅读:17 留言:0更新日期:2023-01-04 12:03
本发明专利技术公开了一种互联网商家虚假热度检测方法及系统,包括:通过电子商务平台获取评价数据,并将评价数据建模成多维张量数据R;利用改进的密集块检测方法检测多维张量数据R中的密集块;根据密集块分析电子商务平台上商家的虚假热度。本发明专利技术能够通过改进的密集块检测方法检测电子商务平台上的评价数据中的密集块,进而检测出互联网商家的虚假热度,检测效率高且检测结果准确可靠。率高且检测结果准确可靠。率高且检测结果准确可靠。

【技术实现步骤摘要】
一种互联网商家虚假热度检测方法及系统


[0001]本专利技术涉及一种互联网商家虚假热度检测方法及系统,属于异常数据检测


技术介绍

[0002]在互联网高速发展的今天,电子商务已经深度融入我们的日常生活,既包括在京东、淘宝等电商平台购买商品,也包括在大众点评等平台上预定餐厅、酒店等。目前这些电子商务都广泛采取评价制,即在平台上购买或预定过的消费者,可以根据自己的消费体验对对应商家给出评价,让以后的消费者有所借鉴。由于更高的好评率会增加商家的热度,吸引更多的消费者,这种“人评价商家”的关系,就会形成稀疏的二维张量数据。因此,很多商家会想办法提高自己的好评率,其中最常使用的方式是付费购买,即经常提到的“刷单”。提供刷单服务,往往是组织一批职业的刷单人,用有限的账号为大量不同的商家刷单,这就会出现一组人同时给一组商家好评的情况,由于商家购买之后,这些评价会在相对集中的时间段内产生,因此会在用户、商家和时间三个维度产生高度的一致性,而这种一致性出现在原本稀疏的张量数据中,就会产生密集块,因此,有效检测出这些密集块,就可以发现商家通过刷单产生的虚假热度。
[0003]现有的密集块检测方法较多,比如:CrossSpot检测方法、M

Zoom密集块检测方法、基于二叉树的可疑块检测方法和基于改进的密集程度度量指标的密集块检测方法,其中,如果张量中包含多个相同规模的密集块,CrossSpot检测方法和M

Zoom密集块检测方法会将几个密集块合并为一个大的密集块,导致检测结果准确率不高,基于二叉树的可疑块检测方法虽然不会合并密集块,但是其检测效率很低,基于改进的密集程度度量指标的密集块检测方法主要对密集块的可疑程度度量进行改进,如果配合CrossSpot检测方法使用,仍然会出现合并密集块的问题。综上所述,这些方法要么效率不高,难以保证检测实时性,要么准确性不够,难以满足实际检测需求,因此,需要研究更加准确、高效的密集块检测方法,从而完成互联网商家虚假热度检测。

技术实现思路

[0004]针对现有技术中存在的问题,本专利技术提出了一种互联网商家虚假热度检测方法及系统,通过改进的密集块检测方法检测电子商务平台上的评价数据中的密集块,进而检测出互联网商家的虚假热度,检测效率高且检测结果准确可靠。
[0005]为解决上述技术问题,本专利技术采用了如下技术手段:
[0006]第一方面,本专利技术提出了一种互联网商家虚假热度检测方法,包括如下步骤:
[0007]通过电子商务平台获取评价数据,并将评价数据建模成多维张量数据R;
[0008]利用改进的密集块检测方法检测多维张量数据R中的密集块;
[0009]根据密集块分析电子商务平台上商家的虚假热度。
[0010]结合第一方面,进一步的,评价数据包括用户、商家和评价时间。
[0011]结合第一方面,进一步的,将评价数据建模成多维张量数据R,设R为K维张量数据,则R={R1,R2,

,R
i
,

,R
K
},其中,R
i
表示张量数据R中的第i维张量数据,R
i
={a
i,1
,a
i,2
,

,a
i,j
,

,a
i,length(Ri)
},a
i,j
表示第i个维度中第j个属性,i=1,2,

,K,j=1,2,

,length(R
i
),length(R
i
)表示R
i
中属性的数量。
[0012]结合第一方面,进一步的,利用改进的密集块检测方法检测多维张量数据R中的密集块的方法为:
[0013](1)令D=R;
[0014](2)在张量数据D中随机选取一个子张量,作为初始的密集块B0,初始化final_B=B0,final_metric=metric(B0,R),其中,metric(B0,R)表示密集块B0相对于张量数据R的可疑程度;
[0015](3)基于密集块B0,利用CrossSpot方法对张量数据D进行收敛,得到收敛后的密集块B;
[0016](4)如果收敛后的密集块B相对于张量数据R的可疑程度metric(B,R)>final_metric,则final_metric=metric(B,R),final_B=B;
[0017](5)从i=1到i=K,计算密集块B中每个维度下每个属性的计数,并根据计数对每个维度的所有属性进行降序排列,得到降序排列后的属性列表B
i
={a
i,1
,a
i,2
,

,a
i,j
,

,a
i,length(Bi)
},其中,count(a
i,1
)≥

≥count(a
i,j
)≥

≥count(a
i,length(Bi)
),count(a
i,j
)表示第i个维度中第j个属性的计数,length(Bi)表示降序排列后的属性列表B
i
中属性的数量;
[0018](6)分别剪除B
i
中最后一个属性a
i,length(Bi)
,结合密集块B中除i之外的其他K

1个维度的属性得到对应的备选密集块B

(i)
及其可疑程度B

_metric
(i)
=metric(B

(i)
,R);
[0019](7)比较K个备选密集块的可疑程度,得到可疑程度最大的备选密集块,记为max_B;
[0020](8)令D=max_B,B0=random_seed(D);
[0021](9)判断D是否为空,如果D不为空,返回步骤(3),如果D为空,将fianl_B作为最终检测出的密集块并输出。
[0022]结合第一方面,进一步的,每当步骤(9)输出一个密集块后,将该密集块从张量数据R中删除,基于更新后的张量数据R重复步骤(1)~(9),检测多个密集块。
[0023]结合第一方面,进一步的,利用度量指标DTS或DGCS度量密集块的可疑程度。
[0024]第二方面,本专利技术提出了一种互联网商家虚假热度检测系统,包括:
[0025]数据预处理模块,用于通过电子商务平台获取评价数据,并将评价数据建模成多维张量数据R;
[0026]数据检测模块,用于利用改进的密集块检测方法检测多维张量数据R中的密集块;
[0027]虚假热度分析模块,用于根据密集块分析电子商务平台上商家的虚本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种互联网商家虚假热度检测方法,其特征在于,包括如下步骤:通过电子商务平台获取评价数据,并将评价数据建模成多维张量数据R;利用改进的密集块检测方法检测多维张量数据R中的密集块;根据密集块分析电子商务平台上商家的虚假热度。2.根据权利要求1所述的一种互联网商家虚假热度检测方法,其特征在于,评价数据包括用户、商家和评价时间。3.根据权利要求1所述的一种互联网商家虚假热度检测方法,其特征在于,将评价数据建模成多维张量数据R,设R为K维张量数据,则R={R1,R2,

,R
i
,

,R
K
},其中,R
i
表示张量数据R中的第i维张量数据,R
i
={a
i,1
,a
i,2
,

,a
i,j
,

,a
i,length(Ri)
},a
i,j
表示第i个维度中第j个属性,i=1,2,

,K,j=1,2,

,length(R
i
),length(R
i
)表示R
i
中属性的数量。4.根据权利要求3所述的一种互联网商家虚假热度检测方法,其特征在于,利用改进的密集块检测方法检测多维张量数据R中的密集块的方法为:(1)令D=R;(2)在张量数据D中随机选取一个子张量,作为初始的密集块B0,初始化final_B=B0,final_metric=metric(B0,R),其中,metric(B0,R)表示密集块B0相对于张量数据R的可疑程度;(3)基于密集块B0,利用CrossSpot方法对张量数据D进行收敛,得到收敛后的密集块B;(4)如果收敛后的密集块B相对于张量数据R的可疑程度metric(B,R)>final_metric,则final_metric=metric(B,R),final_B=B;(5)从i=1到i=K,计算密集块B中每个维度下每个属性的计数,并根据计数对每个维度的所有属性进行降序排列,得到降序排列后的属性列表B
i
={a
i,1
,a
i,2
,

,a
i,j
,

,a
i,length(Bi)
},其中,count(a
i,1
)≥

≥count(a
i,j
)≥

≥count(a
i,length(Bi)
),count(a
i,j
)表示第i个维度中第j个属性的计数,length(Bi)表示降序排列后的属性列表B
i
中属性的数量;(6)分别剪除B
i
中最后一个属性a
i,length(Bi)
,结合密集块B中除i之外的其他K

1个维度的属性得到对应的备选密集块B

(i)
及其可疑程度B

_metric
(i)
=metric(B

(i)
,R);(7)比较K个备选密集块的可疑程度,得到可疑程度最大的备选密集块,记为max_B;(8)令D=max_B,B0=random_seed(D);(9)判断D是否为空,如果D不为空,返回步骤(3),如果D为空,将fianl_B作为最终检测出的密集块并输出。5.根据权利要求4所述的一种互联网商家虚假热度检测方法,其特征在于,每当步骤(9)输出一个密集块后,将该密集块从张量数据R中删除,基于更新后的张量数据R重复步骤(1)~(9),检测多个密集块。6.根据权利要求4所述的...

【专利技术属性】
技术研发人员:边荟凇王俊松
申请(专利权)人:南京信息职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1