基于多智能体深度强化学习的广告位拍卖均衡求解方法技术

技术编号：40662472 阅读：5 留言：0更新日期：2024-03-18 18:55

本发明专利技术公开了基于多智能体深度强化学习的广告位拍卖均衡求解方法，在一个竞拍场景中具有多个竞拍者，每个竞拍者建模为一个深度强化学习的独立的智能体；每个智能体会根据上一轮出价策略、剩余需求、自身估值、获胜者出价对当前策略进行调整直至竞拍广告位数量为零，完成竞拍得到每个竞拍者的预期总利润。本发明专利技术的优点在于：可以通过智能体模拟的方式对竞拍所得利润进行模拟研究，为解决了优化所有在线广告位拍卖者的出价策略，使每个竞拍者的期望利润最大化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及拍卖策略研究领域，具体涉及一种基于多智能体深度强化学习的在线广告位拍卖均衡策略求解方法。

技术介绍

1、在在线广告位拍卖场景下，一个拍卖商采用首价序贯拍卖方式对外销售m个广告展示位；即卖方按顺序举行多场拍卖，每场拍卖最多卖出1个产品，每场拍卖中广告位被出价最高的竞标者购得，且该竞标者按出价进行支付。设存在n个竞标者(bidder)。在初始状态，广告位对任意一个竞标者i(i∈{1，2，…，n})的价值(value)为vi，其中vi为i的私有信息，即只有i自己知道vi的具体值，其它人只知道vi服从(即上的均匀分布)。竞标者i对广告位的需求量为qi，且设广告位的保留价为0(即只要有人出价大于0，广告位就可以成交)，这意味着不存在流拍问题，因此卖方只需按顺序举行m场拍卖。

2、在第j场拍卖中，竞拍者i的出价为bi，j。

3、在第j场拍卖中，获胜者(winner)为wj，则有

4、截止到第j场拍卖结束，卖方的收益为

5、截止到第j场拍卖结束，竞拍者i的效用(即利润)为：

6、截止到第j场拍卖结束，竞拍者i赢得的广告位数为：

7、在第j场拍卖中，参与拍卖的竞拍者数量为：

8、由于以上是最一般化的序贯拍卖，拍卖过程过于复杂，基于理论无法写出每个竞标者事前期望利润的解析式，也无法从解析上求出其完美贝叶斯均衡。因此，本专利技术通过强化学习求出此背景下的近似均衡解。

技术实现思路

1、本专利技术的目的在于

2、为了实现上述目的，本专利技术采用的技术方案为：

3、基于多智能体深度强化学习的广告位拍卖均衡求解方法，在一个竞拍场景中具有多个竞拍者，每个竞拍者建模为一个深度强化学习的独立的智能体；每个智能体会根据上一轮出价策略、剩余需求、自身估值、获胜者出价对当前策略进行调整直至竞拍广告位数量为零，完成竞拍得到每个竞拍者的预期总利润。

4、所述求解方法包括：

5、s1、通过随机的方式初始化竞拍者数量、竞拍者需求、竞拍者估价及广告位数量；

6、s2、通过随机的方式初始化每个智能体的策略参数，限制策略的出价不超过自身估值；

7、s3、每个智能体在每轮拍卖中采集与其对应的观测信息，所述的观测信息是指上一轮拍卖中的成交价结合广告位需求量、估值、获取利润等；

8、s4、将每个智能体的观测信息作为策略的输入信息，所述的策略做出决策选择动作，并输出这个动作的概率的对数。

9、s5、每个智能体确定自身的出价后，最高出价的智能体在此轮拍卖中获胜，公开最高出价；

10、s6、每个智能体根据出价及胜负情况计算奖励值，根据奖励值更新每个智能体的策略网络参数和评估网络参数，然后重复步骤s2-s6，直至拍卖广告位数量为0。

11、步骤s6中每个智能体执行完各自选择的动作后，根据出价及胜负情况计算奖励值，根据所述奖励值更新每个智能体对应的深度强化学习算法中的策略网络参数和评估网络参数包括：深度强化学习算法的框架中包括策略网络和评估网络，策略网络为基础多层感知机(mlp)网络，评估网络是由评估网络1、评估网络2、目标评估网络1和目标评估网络2构成，四个评估网络结构相同，为基础网络mlp，其初始参数也相同，目标评估网络是协助评估网络完成更新的，选择输出小的评估网络协助策略网络完成更新。

12、所述步骤s6中策略网络与评估网络的参数更新过程包括：

13、s601、在更新策略网络和评估网络时需从经验回放池中选取多个当前智能体的状态五元组(s，a，r，s′，done)，其实s表示观测，a表示观测s下采取的动作，r表示观测s下采取动作a获得的奖励，s′表示执行动作a的下一个观测，done表示该竞拍者是否达到自身需求量这些五元组将构成一个五元组集合；

14、s602、对五元组集合进行遍历并针对每个五元组执行以下过程；

15、s602-1、将第i个五元组中的下一时刻状态s′输入到策略网络得到下一时刻动作a′与选取该动作的对数概率log(π(a′|s′)，将(s′，a′)状态动作对输入到目标评估网络1得到状态价值函数q′1(s′，a′)，目标评估网络2得到状态价值函数q′2(s′，a′)；

16、s602-2、基于s602-1获得的动作a′、动作概率log(π(a′|s′)、动作状态值函数q′1(s′，a′)和q′2(s′，a′)计算动作状态对(s，a)的目标q值，其计算公式如下

17、qtarget(s，a)＝r+γ(min(q′1(s′，a′)，q′2(s′，a′))-αlog(π(a′|s′)))*(1-done)

18、s602-3、将动作状态对(s，a)输入评估网络1和2，计算动作状态对(s，a)当前q值q1(s，a)，q2(s，a)；

19、s602-4、将s输入策略网络，得到动作α与动作概率函数的对数log(π(a|s)，将动作状态对(s，a)输入评估网络1、2得到的动作状态值函数q1(s，a)，q2(s，a)，计算(s，a)的q值，计算公式为q(s，a）＝min(q1(s,a)，,q2(s，a))；

20、s603、如果没有完成五元组遍历转跳到步骤s602；

21、s604、基于获得的所有五元组对应的q1(s，a)，q2(s，a)和qtarget(s，a)可以构造评估网络的损失函数，损失函数的形式如下：

22、criticloss＝mse(q1(s，a)，qtarget(s，a))+mse(q2(s，a)，qtarget(s，a))

23、s605、基于s602-4步骤获得的(s，a)的q(s，a)与log(π(a|s)可以计算策略网络的损失函数，损失函数的形式如下：

24、actorloss＝α*log(π(a|s))-q

25、s606、利用反向传播算法来对策略网络和评估网络1、2进行更新。

26、s607、利用软更新对目标评估网络1、2进行更新，计算公式如下：

27、θtarget＝β*θ+(1-β)*θtarget。

28、在一轮竞拍中，剩余竞拍者数量为k，剩余广告位数量为n，竞拍者出价为w，自身需求为q，自身估值为v，n个广告位为同质，每个竞拍者对广告位的估值v和需求量q为个人信息，每轮拍卖结束只公开最高出价。

29、步骤s3中所述的观测信息包括场景信息：剩余竞拍者数量，剩余广告位数量，上一轮获胜者出价。自身信息：广告位需求，广告位估值，即ot＝[kt，nt，wt-1，qt，v]。

30、奖励值采用奖惩函数进行获取，奖励函数通过以下方法获得：...

【技术保护点】

1.基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：在一个竞拍场景中具有多个竞拍者，每个竞拍者建模为一个深度强化学习的独立的智能体；每个智能体会根据上一轮出价策略、剩余需求、自身估值、获胜者出价对当前策略进行调整直至竞拍广告位数量为零，完成竞拍得到每个竞拍者的预期总利润。

2.如权利要求1所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：所述求解方法包括：

3.如权利要求2所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：

4.如权利要求3所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：

5.如权利要求4所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：

6.如权利要求2-5任一所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：

7.如权利要求2-5任一所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：奖励值采用奖惩函数进行获取，奖励函数通过以下方法获得：

...

【技术特征摘要】

2.如权利要求1所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：所述求解方法包括：

3.如权利要求2所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：

4.如权利要求3所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：

5.如权利要求4所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方法，其特征在于：

6.如权利要求2-5任一所述的一种基于多智能体深度强化学习的广告位拍卖均衡求解方...

【专利技术属性】
技术研发人员：杜同春，王波，曾能民，接标，程浩然，高朝文，刘杰，
申请(专利权)人：安徽师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人