基于深度强化学习的自适应博弈算法制造技术

技术编号:20628711 阅读:24 留言:0更新日期:2019-03-20 18:15
本发明专利技术涉及数据处理领域,其公开了一种基于深度强化学习的自适应博弈算法,包括如下步骤:(A)获取不同合作程度的策略;(B)生成不同合作程度的策略;(C)检测对手的合作策略;(D)制定不同的应对策略。本发明专利技术的有益效果是:利用训练出来的检测器和不同合作程度的策略,将已有的Tit for tat等思想实现运用在sequential social dilemmas中;提高了智能体agent的扩展性;更加直观的获取更优于自身的竞争策略。

Adaptive game algorithm based on deep reinforcement learning

The invention relates to the field of data processing, and discloses an adaptive game algorithm based on deep reinforcement learning, which includes the following steps: (A) acquiring strategies with different degrees of cooperation; (B) generating strategies with different degrees of cooperation; (C) detecting opponents'cooperative strategies; (D) formulating different coping strategies. The beneficial effects of the present invention are as follows: utilizing the trained detectors and Strategies of different cooperation degrees, the existing ideas of Tit for tat are applied to sequential social dilemmas; the expandability of agent is improved; and the more intuitive acquisition is better than its own competitive strategy.

【技术实现步骤摘要】
【国外来华专利技术】基于深度强化学习的自适应博弈算法
本专利技术涉及数据处理领域,尤其涉及一种基于深度强化学习的自适应博弈算法。
技术介绍
强化学习被运用在各个领域,从游戏到机器人控制,传统的强化学习通过表格或者线性函数来表示值函数或者策略,很难扩展到复杂的问题下,结合深度学习的深度强化学习利用神经网络提取特征特点与函数近似的能力,已经出现了一些成功的运用[DQN][AlphaZero][PPO]。囚徒困境(PDgame)一直是矩阵博弈(Matrixgame)的研究重点,PDgame将合作与竞争看成是一个原子动作(atomicaction),但是在真实世界中博弈是由一系列动作组成,将进行时序上扩展(temporallyextended)的PD称为序列囚徒困境(SPD)。在PDgame中,大部分的多智能体强化学习(MARL)算法集中传统的强化学习上,很难直接扩展到囚徒困境博弈(SPDgame)中,[SSD]中观察了资源变化对于只考虑自己的收益的智能体(agent)的影响,但是并没有根据SPD的特性提出相应的学习算法。
技术实现思路
为了解决现有技术中的问题,本专利技术提供了一种基于深度强化学习的自适应博弈算法,解决现有技术中多智能体扩展性差的问题。本专利技术是通过以下技术方案实现的:设计、制造了一种基于深度强化学习的自适应博弈算法,包括如下步骤:(A)获取不同合作程度的策略;(B)生成不同合作程度的策略;(C)检测对手的合作策略;(D)制定不同的应对策略。作为本专利技术的进一步改进:所述步骤(A)中,通过使用不同的网络结构和/或不同的目标奖赏形式进行训练并获取不同合作程度的策略。作为本专利技术的进一步改进:所述步骤(A)中,通过修改环境中影响竞争与合作程度的关键因素或者通过对agent的学习目标进行修改来获得不同合作程度的策略。作为本专利技术的进一步改进:所述步骤(B)中,将步骤(A)中得到的不同合作程度的策略设为专家网络,并对专家网络中的不同合作程度的策略赋予权重;并根据不同合作程度的策略的影响程度来生成新合作程度的策略。作为本专利技术的进一步改进:生成新合作程度的策略的算法具体过程为:一个专家网络expertnetwork中,表示采用合作程度attn在训练不同合作程度的策略中设置中获得agenti的策略,每个expertnetwork预测在当前状态下,采用合作程度的策略与其它agent进行play所能获得状态-动作值stateactionvalue,根据已有的合作程度的策略通过赋予不同的权重w1,w2,...wn来获得agenti的新的合作程度的策略πnew为合作程度为attnew的策略,attnew=fvalue(att1att2...,attn,w1,w2,...,wn)fvalue(att1,att2,...,attn,w1,w2,...,wn)为采用基本策略与相应权重w1,w2,...,wn获得策略的合作程度,fvalue为:fvalue(att1,att2,...,attn,w1,w2,...,wn)=att1*w1+att2*w2+…+attn*wnagenti的新合作程度的策略:定义attnew用来衡量合成之后策略的合作程度attnew=fpolicy(att1,att2,...attn,w1,w2,...wn)。作为本专利技术的进一步改进:所述步骤(C)中,使用神经网络来进行合作程度的判别,神经网络的结构采用多任务模式,采用自编码器的结构与分类器的结构相结合,所述自编码器和分类器共用神经网络底层参数。作为本专利技术的进一步改进:所述步骤(D)中,通过检测对手的合作程度中对对手进行判断,生成更利于自身的策略。作为本专利技术的进一步改进:不同的网络结构包括策略网络结构和合作程度检测器的网络结构。作为本专利技术的进一步改进:所述基于深度强化学习的自适应博弈算法应用于多智能体环境中。本专利技术的有益效果是:利用训练出来的检测器和不同合作程度的策略,将已有的Titfortat等思想实现运用在sequentialsocialdilemmas中;提高了智能体agent的扩展性;更加直观的获取更优于自身的竞争策略。【附图说明】图1为本专利技术生成不同合作策略的示意图;图2为本专利技术合作程度检测器的网络结构示意图;图3为本专利技术制定不同的应对策略的示意图。【具体实施方式】下面结合附图说明及具体实施方式对本专利技术进一步说明。一种基于深度强化学习的自适应博弈算法,包括如下步骤:(A)获取不同合作程度的策略;(B)生成不同合作程度的策略;(C)检测对手的合作策略;(D)制定不同的应对策略。所述步骤(A)中,通过使用不同的网络结构和/或不同的目标奖赏形式进行训练并获取不同合作程度的策略。所述步骤(A)中,通过修改环境中影响竞争与合作程度的关键因素或者通过对agent的学习目标进行修改来获得不同合作程度的策略。所述步骤(B)中,将步骤(A)中得到的不同合作程度的策略设为专家网络,并对专家网络中的不同合作程度的策略赋予权重;并根据不同合作程度的策略的影响程度来生成新合作程度的策略。生成新合作程度的策略的算法具体过程为:一个专家网络expertnetwork中,表示采用合作程度attn在训练不同合作程度的策略中设置中获得agenti的策略,每个expertnetwork预测在当前状态下,采用合作程度的策略与其它agent进行play所能获得状态-动作值stateactionvalue,根据已有的合作程度的策略通过赋予不同的权重w1,w2,...wn来获得agenti的新的合作程度的策略πnew为合作程度为attnew的策略,attnew=fvalue(att1,att2,...,attn,w1,w2,...wn)fvalue(att1,att2,...,attn,w1,w2,...,wn)为采用基本策略与相应权重w1,w2,...,wn获得策略的合作程度,fvalue为:fvalue(att1,att2,...,attn,w1,w2,...,wn)=att1*w1+att2*w2+…+attn*wnagenti的新合作程度的策略:定义attnew用来衡量合成之后策略的合作程度attnew=fpolicy(att1,att2,...attn,w1,w2,...wn)。所述步骤(C)中,使用神经网络来进行合作程度的判别,神经网络的结构采用多任务模式,采用自编码器的结构与分类器的结构相结合,所述自编码器和分类器共用神经网络底层参数。所述步骤(D)中,通过检测对手的合作程度中对对手进行判断,生成更利于自身的策略。不同的网络结构包括策略网络结构和合作程度检测器的网络结构。所述策略网络结构为类似DQN结构,采用五层结构,第一隐藏层、第二隐藏层和第三隐藏层均为卷积层,第四层为全连接层,最后一层采用与动作数目相同的节点数;所述合作程度检测器的网络结构为三层结构,这三层均为卷积层,自编码器部分接第三层,合作程度检测部分后接第三层。所述基于深度强化学习的自适应博弈算法应用于多智能体环境sequentialsocialdilemmas中。本专利技术基于深度强化学习的自适应博弈算法(DeepReinforcementLearningFrameworktowardsMutualCooperation本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的自适应博弈算法,其特征在于:包括如下步骤:(A)获取不同合作程度的策略;(B)生成不同合作程度的策略;(C)检测对手的合作策略;(D)制定不同的应对策略。

【技术特征摘要】
【国外来华专利技术】1.一种基于深度强化学习的自适应博弈算法,其特征在于:包括如下步骤:(A)获取不同合作程度的策略;(B)生成不同合作程度的策略;(C)检测对手的合作策略;(D)制定不同的应对策略。2.根据权利要求1所述的基于深度强化学习的自适应博弈算法,其特征在于:所述步骤(A)中,通过使用不同的网络结构和/或不同的目标奖赏形式进行训练并获取不同合作程度的策略。3.根据权利要求1所述的基于深度强化学习的自适应博弈算法,其特征在于:所述步骤(A)中,通过修改环境中影响竞争与合作程度的关键因素或者通过对agent的学习目标进行修改来获得不同合作程度的策略。4.根据权利要求1所述的基于深度强化学习的自适应博弈算法,其特征在于:所述步骤(B)中,将步骤(A)中得到的不同合作程度的策略设为专家网络,并对专家网络中的不同合作程度的策略赋予权重;并根据不同合作程度的策略的影响程度来生成新合作程度的策略。5.根据权利要求4所述的基于深度强化学习的自适应博弈算法,其特征在于:生成新合作程度的策略的算法具体过程为:一个专家网络expertnetwork中,表示采用合作程度attn在训练不同合作程度的策略中设置中获得agenti的策略,每个expertnetwork预测在当前状态下,采用合作程度的策略与其它agent进行play所能获得状态-动作值stateactionvalue,根据已有的合作程度的策略通过赋予不同的权重w1,w2,...wn来获得agenti的新...

【专利技术属性】
技术研发人员:侯韩旭郝建业王维勋
申请(专利权)人:东莞理工学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1