一种基于强化学习的虚假评分检测方法技术

技术编号：23892787 阅读：80 留言：0更新日期：2020-04-22 07:10

本发明专利技术公开了一种基于强化学习(DQN)的虚假评分检测方法，具体涉及电子商务的虚假评分检测领域。该检测方法基于网络和电商平台信誉计算方法，提出了一种半监督的虚假评分检测方法(RDDQN算法)，在使用少量的训练样本和只考虑评分者行为特征的前提下，经过足够的训练学习后，深度Q网络可以作为一个过滤器来分辨同一平台中其它评分的真伪。实施过程采用RDDQN与IBS信誉计算方法相结合，实验结果表明RDDQN_IBS检测的F1值达到了0.952，运行时间不超过4分钟。这样的结果使RDDQN的应用成为可能，经过验证算法比现有算法具有更好的检测性能。

A false score detection method based on Reinforcement Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的虚假评分检测方法
本专利技术涉及电子商务的虚假评分检测领域，具体涉及一种基于强化学习的虚假评分检测方法。
技术介绍
全球电子商务的发展进入了空前繁荣阶段，电子商务成本低、效率高的特点使得它得到了广大普通消费者的认可，而且对促进传统企业的产业升级、优化产业结构起到了至关重要的作用。然而，在繁荣的背后存在着一些比较突出的问题，其中信任缺失和虚假评分盛行问题在各种电子商务市场中仍然普遍存在。卖家想要迅速获得高信誉的愿望推动了一项盈利的地下业务，该业务作为一个专业的众包市场运作，卖家利用人力进行虚假交易来提高其店铺的信誉，从而积累财富。Xu等人称这种地下市场为seller-reputation-escalation(SRE)市场。他们发现超过11,000名在线卖家在5个SRE市场上发布了至少219,165个虚假购买任务。这些交易在五个SRE市场的收入至少为46,438美元，涉及的商品总价值超过3,452,530美元。针对电子商务信誉缺失和虚假评分屡禁不止的问题，电商经营者从机制管理、信誉模型和评分/...

【技术保护点】
1.一种基于强化学习的虚假评分检测方法，其特征在于，该方法基于Q网络，包括以下步骤：/n定义买家评分状态向量s

【技术特征摘要】
1.一种基于强化学习的虚假评分检测方法，其特征在于，该方法基于Q网络，包括以下步骤：
定义买家评分状态向量st，st由四元组构成，反映了买家的状态特征：

其中，表示买家自身的内在属性，Fit表示买家所处外部环境的特征；
定义买家动作向量at＝{0,1}，买家的动作向量包括两个状态：对于买家，诚实还是撒谎；对于平台，评分是真、还是假，对应的状态值分别为1和0；
定义买家动作的奖励函数rt，如式(4)所示，

C为大于0小于1的常数，被称为奖励参数；
交易买家的交易经验组成平台交易全集D，在数据集D中使用DQN的方法学习买家的评分行为，从而预测买家评分的真或假，实现虚假评分检测；
在DQN的Q网络中，策略和最优状态-动作值函数Q*(s,a)的计算式为(5)所示，

其中，其中πε(s)是ε贪心策略，函数Q(s,a；θ)是一个被称之为Q网络的神经网络，θ是它的权重参数，当Q网络迭代学习的次数足够多时，采用函数Q(s,a；θ)近似计算最优状态-动作值函数，即Q(s,a；θ)≈Q*(s,a)，Q网络通过每次迭代i时最小化损失函数序列Li(θi)来训练，Li(θi)由式(7)计算，
Li(θi)＝Es,a～ρ(·)[(yi-Q(s,a；θi))2](7)
其中yi＝Es'～ε[r+γmaxa'Q(s',a'；θi-1)|s,a]是迭代i的目标，ρ(s,a)是状态...

【专利技术属性】
技术研发人员：王鑫，纪淑娟，梁永全，
申请(专利权)人：山东科技大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人