一种智能体博弈训练方法、系统、设备及存储介质技术方案

技术编号：40596859 阅读：3 留言：0更新日期：2024-03-12 21:59

本发明专利技术公开了一种智能体博弈训练方法、系统、设备及存储介质，克服了在非对称且非完全信息条件下，智能体对未知对手行为等高属性特征认知偏差带来的赢得值偏差的传递和放大。本发明专利技术以在线更新表征智能体所采策略的相对优势评分的动态赢得函数以及表征对手策略的状态估计网络的方式，解决多智能体博弈的中策略迁移导致的环境非平稳性，动态适应智能体的状态迁移，能够提升智能体的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能体博弈训练，尤其涉及一种智能体博弈训练方法、系统、设备及存储介质。

技术介绍

1、强化学习是一种对目标导向的学习与决策问题进行理解和自动化处理的计算方法。它强调智能体通过与环境的直接互动来学习，而不需要可效仿的监督信号或对周围环境的完全建模，因而与其他的计算方法相比具有不同的范式。强化学习使用马尔可夫决策过程的形式化框架，使用观测状态、动作和回报定义学习型智能体与环境的互动过程。当智能体通过动作与环境进行交互时，环境会给智能体一个即时的回报，智能体会根据回报评估采取的动作，如果是正向的回报则加大采取该动作的概率，如果是负向的回报则减小采取该动作的概率，同时智能体的动作可能会改变环境，从而改变观测状态，不断重复，最终找到最优策略使得累积回报的期望最大。

2、然而现实中博弈往往以不完全信息的扩展式博弈存在，智能体需要在不确定环境中选择行动来执行特定的目标，并且需要根据部分观测来对当前环境进行建模。此外，现实场景中的博弈也存在认知偏差、信息非对称等问题。非完全信息认知条件下，传统博弈方法直接构建非完全信息的赢得矩阵估计，信息偏差同样会导致赢得值偏差的传递和放大。通俗来说，博弈过程中，智能体均无法获取完整的环境信息，因此，观测状态只包含部分环境信息，从而导致智能体可能存在认知偏差、信息非对称等问题，进而导致智能体难以正确的进行动作决策，因此，制约了智能体的智能化程度与博弈能力。

3、以无人驾驶场景为例，智能体负责车辆的控制，需要车身的摄像机获取周围环境信息(即观测状态)，获取障碍的图像并进行建模

技术实现思路

1、本专利技术的目的是提供一种智能体博弈训练方法、系统、设备及存储介质，可以提升博弈训练效果，进而提升智能体的性能，提升智能体之间的博弈能力。

2、本专利技术的目的是通过以下技术方案实现的：

3、一种智能体博弈训练方法，包括：

4、智能体博弈过程中，实施智能体与对手智能体各自控制所在场景中的不同对象，每一轮迭代中，实施智能体根据对手智能体的历史观测状态估计对手智能体的非对称非完全信息下状态，称为充分信息态；结合充分信息态确定在线更新的动态赢得函数并进行行动决策，在实施行动决策后，对手智能体根据实施智能体的观测状态并结合当前任务，确定抵御动作；

5、每一轮迭代中数据均作为经验组存储于缓存池中，当缓存池存储的经验组达到设定数量，通过随机采样出的若干经验组对所述实施智能体与对手智能体分别进行优化。

6、一种智能体博弈训练系统，包括：实施智能体与对手智能体；其中：

7、智能体博弈过程中，实施智能体与对手智能体各自控制所在场景中的不同对象，每一轮迭代中，实施智能体根据对手智能体的历史观测状态估计对手智能体的非对称非完全信息下状态，称为充分信息态；结合充分信息态确定在线更新的动态赢得函数并进行行动决策，在实施行动决策后，对手智能体根据实施智能体的观测状态并结合当前任务，确定抵御动作；

8、每一轮迭代中数据均作为经验组存储于缓存池中，当缓存池存储的经验组达到设定数量，通过随机采样出的若干经验组对所述实施智能体与对手智能体进行优化。

9、一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

10、其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

11、一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

12、由上述本专利技术提供的技术方案可以看出，克服了在非对称且非完全信息条件下，智能体对未知对手智能体行为等高属性特征认知偏差带来的赢得值偏差的传递和放大。本专利技术以在线更新表征智能体所采策略的相对优势评分的动态赢得函数以及表征对手策略的状态估计网络的方式，解决多智能体博弈的中策略迁移导致的环境非平稳性，动态适应智能体的状态迁移，能够提升智能体的性能，进而提升智能体之间的博弈能力。

本文档来自技高网...

【技术保护点】

1.一种智能体博弈训练方法，其特征在于，包括：

2.根据权利要求1所述的一种智能体博弈训练方法，其特征在于，每一轮迭代中数据均作为经验组存储于缓存池中，当缓存池存储的经验组达到设定数量，通过随机采样出的若干经验组对所述实施智能体与对手智能体分别进行优化包括：

3.根据权利要求1或2所述的一种智能体博弈训练方法，其特征在于，所述实施智能体中设有状态估计模块，用于估计对手智能体的非对称非完全信息下状态；

4.根据权利要求3所述的一种智能体博弈训练方法，其特征在于，所述状态估计模块通过随机采样出的若干经验组计算的临界损失函数进行优化，临界损失函数表示为：

5.根据权利要求4所述的一种智能体博弈训练方法，其特征在于，在线更新的动态赢得函数通过如下方式获得：

6.根据权利要求5所述的一种智能体博弈训练方法，其特征在于，通过分析赢得函数，可以得到均衡的行动决策，最优决策动作对应的赢得函数表示为：

7.一种智能体博弈训练系统，其特征在于，包括：实施智能体与对手智能体；其中：

8.一种处理设备，其特征在于，包括：

9.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1～6任一项所述的方法。

...

【技术特征摘要】

1.一种智能体博弈训练方法，其特征在于，包括：

4.根据权利要求3所述的一种智能体博弈训练方法，其特征在于，所述状态估计模块通过随机采样出的若干经验组计算的临界损失函数进行优化，临界损失函数表示为...

【专利技术属性】
技术研发人员：章耀辉，杨坚，姜晓枫，何华森，刘洵，胡自然，王毅博，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人