【技术实现步骤摘要】
一种基于强化学习的虚假评分检测方法
本专利技术涉及电子商务的虚假评分检测领域,具体涉及一种基于强化学习的虚假评分检测方法。
技术介绍
全球电子商务的发展进入了空前繁荣阶段,电子商务成本低、效率高的特点使得它得到了广大普通消费者的认可,而且对促进传统企业的产业升级、优化产业结构起到了至关重要的作用。然而,在繁荣的背后存在着一些比较突出的问题,其中信任缺失和虚假评分盛行问题在各种电子商务市场中仍然普遍存在。卖家想要迅速获得高信誉的愿望推动了一项盈利的地下业务,该业务作为一个专业的众包市场运作,卖家利用人力进行虚假交易来提高其店铺的信誉,从而积累财富。Xu等人称这种地下市场为seller-reputation-escalation(SRE)市场。他们发现超过11,000名在线卖家在5个SRE市场上发布了至少219,165个虚假购买任务。这些交易在五个SRE市场的收入至少为46,438美元,涉及的商品总价值超过3,452,530美元。针对电子商务信誉缺失和虚假评分屡禁不止的问题,电商经营者从机制管理、信誉模型和评分/ ...
【技术保护点】
1.一种基于强化学习的虚假评分检测方法,其特征在于,该方法基于Q网络,包括以下步骤:/n定义买家评分状态向量s
【技术特征摘要】
1.一种基于强化学习的虚假评分检测方法,其特征在于,该方法基于Q网络,包括以下步骤:
定义买家评分状态向量st,st由四元组构成,反映了买家的状态特征:
其中,表示买家自身的内在属性,Fit表示买家所处外部环境的特征;
定义买家动作向量at={0,1},买家的动作向量包括两个状态:对于买家,诚实还是撒谎;对于平台,评分是真、还是假,对应的状态值分别为1和0;
定义买家动作的奖励函数rt,如式(4)所示,
C为大于0小于1的常数,被称为奖励参数;
交易买家的交易经验组成平台交易全集D,在数据集D中使用DQN的方法学习买家的评分行为,从而预测买家评分的真或假,实现虚假评分检测;
在DQN的Q网络中,策略和最优状态-动作值函数Q*(s,a)的计算式为(5)所示,
其中,其中πε(s)是ε贪心策略,函数Q(s,a;θ)是一个被称之为Q网络的神经网络,θ是它的权重参数,当Q网络迭代学习的次数足够多时,采用函数Q(s,a;θ)近似计算最优状态-动作值函数,即Q(s,a;θ)≈Q*(s,a),Q网络通过每次迭代i时最小化损失函数序列Li(θi)来训练,Li(θi)由式(7)计算,
Li(θi)=Es,a~ρ(·)[(yi-Q(s,a;θi))2](7)
其中yi=Es'~ε[r+γmaxa'Q(s',a';θi-1)|s,a]是迭代i的目标,ρ(s,a)是状态...
【专利技术属性】
技术研发人员:王鑫,纪淑娟,梁永全,
申请(专利权)人:山东科技大学,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。