一种基于电商评论识别恶意用户的方法技术

技术编号:24412544 阅读:32 留言:0更新日期:2020-06-06 09:53
本发明专利技术公开一种基于电商评论识别恶意用户的方法,步骤是:步骤1,构建三元组用于存储评分数据;步骤2,初始化所有用户的信誉;步骤3,计算各商品在各个评分下的带权群组大小;步骤4,计算不同商品中各群组的占比矩阵;步骤5,将占比矩阵映射到行和列分别对应用户和商品的矩阵中;步骤6,计算各用户所在群组占比的平均值和标准差,并计算用户评分的标准差;步骤7,根据步骤6得到的数据计算用户信誉;步骤8,基于步骤7得到的用户信誉,重复步骤3‑7,然后计算两次用户信誉的差值,若大于阈值则继续迭代,直至小于或等于阈值;步骤9,将信誉最低的L个用户当作恶意用户。此种方法可提高筛选恶意用户的精确度,增大识别过程计算的稳定性。

A method of identifying malicious users based on e-commerce comments

【技术实现步骤摘要】
一种基于电商评论识别恶意用户的方法
本专利技术属于电子商务和社会计算领域,特别涉及一种基于电商评论来筛选恶意用户的方法。
技术介绍
处在一个网络时代,用户的评分开始发挥越来越重要的作用,尤其是在电商领域。因此许多电商平台(如淘宝、京东)推出评分系统,用户可以对商品进行评分,同时商品收到的评分将会影响用户决策,确保评分的真实有效显得尤为重要。然而在评分系统中有一些恶意用户,他们的评分不可靠,一种恶意用户是商家请来的水军,给自己的商品评高分,给对手的商品评低分,另一种恶意用户是进行随机评分的恶意用户。这些恶意用户的评分扰乱了评分系统,因此需要一种方法来将恶意用户筛选出来,降低恶意评分的影响,使评分更加可靠。要筛选恶意用户,可以根据用户的评分情况给每个用户赋予一个信誉分,将信誉分低的用户当做恶意用户。确定用户信誉分的方法多种多样,用户信誉分的确定方法决定了算法的好坏。当前已有许多检测恶意用户的算法被提出,例如基于商品质量的CR(Correlation-basedRanking)算法,CR算法首先根据评分计算商品预估质量,然后计算用户评分和商品质量的相关性,根据相关性得出用户信誉,然后将信誉分低的用户当做恶意用户。同样基于商品质量的算法还有IR(IterativeRanking)算法、RR(RankingReputation)算法和IBM(IterativeBalanceModel)算法等,但是用户的评分可能与商品真实质量有一定差距,并不能用来代替商品质量,所以基于商品质量的算法有一定的不合理性。另外一类是基于群组的算法,如GR(Group-basedRanking)算法,若用户对某个商品的评分和大多数人的评分相同,那么认为该用户更可信,应该有更高的信誉分。IGR(IterativeGroup-basedRanking)算法是在GR算法的基础上将IR算法的迭代思想加入,使算法的效果得到提升,但是算法的效果仍然有提升空间。还有一类是基于用户的评分分布特点的,如DR(Deviation-basedRanking)算法和BR(BayesianReputation)算法,DR算法认为用户的评分服从正态分布,BR算法认为用户的评分服从贝塔分布。然而用户的评分分布各不相同,并非完全服从某种分布,因此这种算法的稳定性较差。
技术实现思路
本专利技术的目的,在于提供一种基于电商评论识别恶意用户的方法,其可提高筛选恶意用户的精确度,增大识别过程计算的稳定性。为了达成上述目的,本专利技术的解决方案是:一种基于电商评论识别恶意用户的方法,包括如下步骤:步骤1,构建三元组G[Ui,Oα,ωs]用于存储评分数据,Ui代表用户i,i={1,…,m},m是用户数;Oα代表商品α,α={1,…,n},n是商品数;ωs代表评分s,m、n分别表示用户数和商品数;步骤2,初始化所有用户的信誉为1;步骤3,计算各商品在各个评分下的带权群组大小,权值即为评价该商品的用户信誉;步骤4,根据步骤3得出的带权群组大小,计算不同商品中各群组的占比矩阵;步骤5,步骤4得到的占比矩阵中,行和列分别对应商品和评分,将其映射到行和列分别对应用户和商品的矩阵中;步骤6,计算各用户所在群组占比的平均值和标准差,并计算用户评分的标准差;步骤7,根据步骤6计算得到的数据计算用户信誉;步骤8,基于步骤7计算得到的用户信誉,重复步骤3-7,然后计算两次用户信誉的差值,若大于阈值则以新的用户信誉重复步骤3-7,直至用户信誉变化小于阈值时迭代结束;步骤9,对最终得到的用户信誉进行排序,将信誉最低的L个用户当作恶意用户。上述步骤3中,根据下式计算商品α在评分s下的带权群组大小Λsα:其中,Ris表示对商品α评分为s的用户i的信誉分。上述步骤4中,根据下式计算不同商品中各群组的占比矩阵:其中,Λsα为商品α在评分s下的带权群组大小。上述步骤5的具体方法是:其中,当用户i对商品α的评分为s时,将商品评分矩阵中的映射到用户商品占比矩阵中得到A′iα,如果没有评分认为值不存在。上述步骤6中,根据下式计算用户i所在群组占比的平均值:其中,ki为用户i的度。上述步骤6中,根据下式计算用户i所在群组占比的标准差:其中,ki为用户i的度。上述步骤6中,计算用户评分的标准差的具体过程是;首先计算各个用户的平均评分:其中,ωiα表示用户i对商品α的评分,ki是用户i的度;然后计算评分的标准差:上述步骤7中,根据下式计算用户信誉:其中,μ(A′i)、σ(A′i)、σ(ωi)分别是用户i所在群组占比的平均值、用户i所在群组占比的标准差、用户评分的标准差。上述步骤8中,两次用户信誉的差值计算公式是:Δ=|R-R'|=∑i(Ri-R′i)2/m其中,Δ为差值,R、R'分别为两次用户信誉,Ri、R′i分别为用户的两次用户信誉。采用上述方案后,本专利技术针对正常用户评分一般比较集中的情况,将用户评分的标准差加入评判标准,正常用户由于评分集中评分的标准差相对较小,而恶意用户评分的标准差则相对较大,将评分的标准差加入到分母中就能增大正常用户的信誉分降低恶意用户的信誉分。因此本专利技术在筛选极端恶意用户和随机评分的恶意用户时,提升了检测恶意用户的精确度;在恶意用户增多、数据量增大时,本专利技术的表现更加稳定,鲁棒性更好。本专利技术可以应用于电商网站恶意用户的检测以及电商网站评分系统的改善。附图说明图1是本专利技术的流程图;图2是制造50个恶意用户时各算法的效果图;图3是制造100个恶意用户时各算法的效果图。具体实施方式以下将结合附图,对本专利技术的技术方案及有益效果进行详细说明。本专利技术提供一种基于电商评论识别恶意用户的方法,主要包含如下四个阶段:首先,采用三元组的方式存储评分数据;采用三元组存储评分数据,在数据量较大、评分数据较为稀疏时,相比于数组节省了空间;其次,统计各商品在各个评分下的带权群组大小,将用户的信誉分作为权重,计算各商品中各评分群组占比;然后,依据各用户所在群组占比的平均值和标准差以及用户评分的标准差求得用户的信誉分,并将用户信誉迭代计算直到用户信誉趋于稳定;在该阶段中,在计算用户信誉时加入用户评分的标准差,提升了正常用户的信誉,降低了恶意用户的信誉,使得检测恶意用户的精确度得到了提升;最后,将信誉分最低的L个用户当作恶意用户。如图1所示,本专利技术的具体过程如下:步骤1,构建一个三元组G[Ui,Oα,ωs]用于存储评分数据,Ui代表用户i,Oα代表商品α,ωs代表评分s。其中,i是用户的编号,取值是i={1,…,m},m是用户数;α是商品编号,取值是α={1,…,n},n是商品数。每个三元组中存储一条评分数本文档来自技高网
...

【技术保护点】
1.一种基于电商评论识别恶意用户的方法,其特征在于包括如下步骤:/n步骤1,构建三元组G[U

【技术特征摘要】
1.一种基于电商评论识别恶意用户的方法,其特征在于包括如下步骤:
步骤1,构建三元组G[Ui,Oα,ωs]用于存储评分数据,Ui代表用户i,i={1,…,m},m是用户数;Oα代表商品α,α={1,…,n},n是商品数;ωs代表评分s;
步骤2,初始化所有用户的信誉为1;
步骤3,计算各商品在各个评分下的带权群组大小,权值即为评价该商品的用户信誉;
步骤4,根据步骤3得出的带权群组大小,计算不同商品中各群组的占比矩阵;
步骤5,步骤4得到的占比矩阵中,行和列分别对应商品和评分,将其映射到行和列分别对应用户和商品的矩阵中;
步骤6,计算各用户所在群组占比的平均值和标准差,并计算用户评分的标准差;
步骤7,根据步骤6计算得到的数据计算用户信誉;
步骤8,基于步骤7计算得到的用户信誉,重复步骤3-7,然后计算两次用户信誉的差值,若大于阈值则以新的用户信誉重复步骤3-7,直至用户信誉变化小于或等于阈值时迭代结束;
步骤9,对最终得到的用户信誉进行排序,将信誉最低的L个用户当作恶意用户。


2.如权利要求1所述的基于电商评论识别恶意用户的方法,其特征在于:所述步骤3中,根据下式计算商品α在评分s下的带权群组大小Λsα:



其中,Ris表示对商品α评分为s的用户i的信誉分。


3.如权利要求1所述的基于电商评论识别恶意用户的方法,其特征在于:所述步骤4中,根据下式计算不同商品中各群组的占比矩阵:



其中,Λsα为商品α在评分s下的带权群组大小。


4.如权利要求1所述的基于电商评论识别恶意用...

【专利技术属性】
技术研发人员:孙宏亮付泉赟卜湛曹杰
申请(专利权)人:南京财经大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1