基于深度强化学习的自适应博弈算法制造技术

技术编号：20628711 阅读：24 留言：0更新日期：2019-03-20 18:15

本发明专利技术涉及数据处理领域，其公开了一种基于深度强化学习的自适应博弈算法，包括如下步骤：（A）获取不同合作程度的策略；（B）生成不同合作程度的策略；（C）检测对手的合作策略；（D）制定不同的应对策略。本发明专利技术的有益效果是：利用训练出来的检测器和不同合作程度的策略，将已有的Tit for tat等思想实现运用在sequential social dilemmas中;提高了智能体agent的扩展性；更加直观的获取更优于自身的竞争策略。

Adaptive game algorithm based on deep reinforcement learning

The invention relates to the field of data processing, and discloses an adaptive game algorithm based on deep reinforcement learning, which includes the following steps: (A) acquiring strategies with different degrees of cooperation; (B) generating strategies with different degrees of cooperation; (C) detecting opponents'cooperative strategies; (D) formulating different coping strategies. The beneficial effects of the present invention are as follows: utilizing the trained detectors and Strategies of different cooperation degrees, the existing ideas of Tit for tat are applied to sequential social dilemmas; the expandability of agent is improved; and the more intuitive acquisition is better than its own competitive strategy.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】基于深度强化学习的自适应博弈算法
本专利技术涉及数据处理领域，尤其涉及一种基于深度强化学习的自适应博弈算法。
技术介绍
强化学习被运用在各个领域，从游戏到机器人控制，传统的强化学习通过表格或者线性函数来表示值函数或者策略，很难扩展到复杂的问题下，结合深度学习的深度强化学习利用神经网络提取特征特点与函数近似的能力，已经出现了一些成功的运用[DQN][AlphaZero][PPO]。囚徒困境(PDgame)一直是矩阵博弈(Matrixgame)的研究重点，PDgame将合作与竞争看成是一个原子动作(atomicaction)，但是在真实世界中博弈是由一系列动作组成，将进行时序上扩展(temporallyextended)的PD称为序列囚徒困境(SPD)。在PDgame中，大部分的多智能体强化学习(MARL)算法集中传统的强化学习上，很难直接扩展到囚徒困境博弈(SPDgame)中，[SSD]中观察了资源变化对于只考虑自己的收益的智能体(agent)的影响，但是并没有根据SPD的特性提出相应的学习算法。
技术实现思路
为了解决现有技术中的问题，本专利技术提供了一种基于深度强化学习的自适应博弈算法，解决现有技术中多智能体扩展性差的问题。本专利技术是通过以下技术方案实现的：设计、制造了一种基于深度强化学习的自适应博弈算法，包括如下步骤：(A)获取不同合作程度的策略；(B)生成不同合作程度的策略；(C)检测对手的合作策略；(D)制定不同的应对策略。作为本专利技术的进一步改进：所述步骤(A)中，通过使用不同的网络结构和/或不同的目标奖赏形式进行训练并获取不同合作程...

【技术保护点】
1.一种基于深度强化学习的自适应博弈算法，其特征在于：包括如下步骤：(A)获取不同合作程度的策略；(B)生成不同合作程度的策略；(C)检测对手的合作策略；(D)制定不同的应对策略。

【技术特征摘要】
【国外来华专利技术】1.一种基于深度强化学习的自适应博弈算法，其特征在于：包括如下步骤：(A)获取不同合作程度的策略；(B)生成不同合作程度的策略；(C)检测对手的合作策略；(D)制定不同的应对策略。2.根据权利要求1所述的基于深度强化学习的自适应博弈算法，其特征在于：所述步骤(A)中，通过使用不同的网络结构和/或不同的目标奖赏形式进行训练并获取不同合作程度的策略。3.根据权利要求1所述的基于深度强化学习的自适应博弈算法，其特征在于：所述步骤(A)中，通过修改环境中影响竞争与合作程度的关键因素或者通过对agent的学习目标进行修改来获得不同合作程度的策略。4.根据权利要求1所述的基于深度强化学习的自适应博弈算法，其特征在于：所述步骤(B)中，将步骤(A)中得到的不同合作程度的策略设为专家网络，并对专家网络中的不同合作程度的策略赋予权重；并根据不同合作程度的策略的影响程度来生成新合作程度的策略。5.根据权利要求4所述的基于深度强化学习的自适应博弈算法，其特征在于：生成新合作程度的策略的算法具体过程为：一个专家网络expertnetwork中，表示采用合作程度attn在训练不同合作程度的策略中设置中获得agenti的策略，每个expertnetwork预测在当前状态下，采用合作程度的策略与其它agent进行play所能获得状态-动作值stateactionvalue，根据已有的合作程度的策略通过赋予不同的权重w1，w2，...wn来获得agenti的新...

【专利技术属性】
技术研发人员：侯韩旭，郝建业，王维勋，
申请(专利权)人：东莞理工学院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人