目标博弈决策模型的构建方法、装置、电子设备及介质制造方法及图纸

技术编号：40834469 阅读：5 留言：0更新日期：2024-04-01 14:58

本发明专利技术公开了一种目标博弈决策模型的构建方法、装置、电子设备及介质，包括：获取与目标智能体对应的离线博弈数据集，并基于离线博弈数据集构建与目标智能体对应的虚拟环境仿真模型；针对各数据采集时刻下的离线博弈数据，确定当前数据采集时刻对应的当前离线博弈数据确定目标智能体在当前数据采集时刻对应的待使用态势信息；将待使用态势信息输入预先构建的虚拟环境仿真模型中，得到目标智能体在下一数据采集时刻的待确定状态信息；基于至少一个数据采集时刻对应的待确定状态信息对目标智能体对应的初始博弈模型的模型参数进行迭代更新，得到与目标智能体对应的目标博弈决策模型。实现了构建与目标智能体对应的更加准确的博弈模型的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，尤其涉及一种目标博弈决策模型的构建方法、装置、电子设备及介质。

技术介绍

1、在针对跨域性对抗博弈场景，具有环境高复杂性、博弈强对抗性、响应高实时性以及信息不完整性等特点，因此，在基于无人系统集群的对抗博弈场景急迫的需要引入先进的人工智能技术。

2、目前，确定对抗博弈过程中的每个智能体的执行策略时大多需要高保真的仿真环境，但是现有的建模技术很难构建与真实对抗博弈场景完全匹配的仿真数据；其次，现有技术中需要与建模仿真模型进行实时数据交互，以对智能体对应的决策模型进行调整，在此过程中需要的数据量大且计算资源消耗大，难以满足实际应用中对智能体的控制需求。

3、为了解决上述问题，需要构建应用于对抗博弈场景中的博弈模型，以基于该博弈模型确定与智能体对应的执行策略。

技术实现思路

1、本专利技术提供了一种目标博弈决策模型的构建方法、装置、电子设备及介质，以解决现有的建模技术很难构建与真实对抗博弈场景完全匹配的仿真数据，且现有技术中需要与建模仿真模型进行实时数据交互，导致存在数据量大且计算资源消耗大的问题。

2、第一方面，本专利技术实施例提供了一种目标博弈决策模型的构建方法，包括：

3、获取与目标智能体对应的离线博弈数据集，并基于所述离线博弈数据集构建与所述目标智能体对应的虚拟环境仿真模型；其中，所述离线博弈数据集中包括所述目标智能体在至少一个数据采集时刻下的离线博弈数据；

4、针对各数据采集时刻下的离线博弈数据

5、将所述待使用态势信息输入预先构建的虚拟环境仿真模型中，得到所述目标智能体在下一数据采集时刻的待确定状态信息；

6、基于至少一个数据采集时刻对应的待确定状态信息对所述目标智能体对应的初始博弈模型的模型参数进行迭代更新，得到与所述目标智能体对应的目标博弈决策模型。

7、第二方面，本专利技术实施例还提供了一种目标博弈决策模型的构建装置，包括：

8、仿真模型构建模块，用于获取与目标智能体对应的离线博弈数据集，并基于所述离线博弈数据集构建与所述目标智能体对应的虚拟环境仿真模型；其中，所述离线博弈数据集中包括所述目标智能体在至少一个数据采集时刻下的离线博弈数据；

9、态势信息确定模块，用于针对各数据采集时刻下的离线博弈数据，确定当前数据采集时刻对应的当前离线博弈数据确定所述目标智能体在所述当前数据采集时刻对应的待使用态势信息；其中，所述待使用态势信息中所述目标智能体对应的当前状态信息；

10、状态信息确定模块，用于将所述待使用态势信息输入预先构建的虚拟环境仿真模型中，得到所述目标智能体在下一数据采集时刻的待确定状态信息；

11、目标博弈决策模型确定模块，用于基于至少一个数据采集时刻对应的待确定状态信息对所述目标智能体对应的初始博弈模型的模型参数进行迭代更新，得到与所述目标智能体对应的目标博弈决策模型。

12、第三方面，本专利技术实施例还提供了一种电子设备，包括：

13、至少一个处理器；以及

14、与所述至少一个处理器通信连接的存储器；其中，

15、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本专利技术任一实施例所述的目标博弈决策模型的构建方法。

16、第四方面，本专利技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的目标博弈决策模型的构建方法。

17、本专利技术实施例的技术方案，通过获取与目标智能体对应的离线博弈数据集，并基于离线博弈数据集构建与目标智能体对应的虚拟环境仿真模型，在本技术方案中为了保证与目标智能体对应的博弈数据的高保真性，可以获取与目标智能体在历史过程中的真实博弈数据作为离线博弈数据，以基于离线博弈数据构建与目标智能体对应的虚拟环境仿真模型，进而基于虚拟环境仿真模型和离线博弈数据构建与目标智能体对应的目标博弈决策模型。进一步的，针对各数据采集时刻下的离线博弈数据，确定当前数据采集时刻对应的当前离线博弈数据确定目标智能体在当前数据采集时刻对应的待使用态势信息；将待使用态势信息输入预先构建的虚拟环境仿真模型中，得到目标智能体在下一数据采集时刻的待确定状态信息，在本技术方案中，在确定目标智能体在当前数据采集时刻对应的状态信息后，将但是数据采集时刻对应的状态信息以及与当前数据采集时刻对应的初始策略信息输入预先构建的虚拟环境仿真模型中，即可根据目标智能体的当前数据采集时刻的状态信息预测在下一数据采集时刻的状态信息。进一步的，基于至少一个数据采集时刻对应的待确定状态信息对目标智能体对应的初始博弈模型的模型参数进行迭代更新，得到与目标智能体对应的目标博弈决策模型，在实际应用中，基于初始博弈模型中部署的奖励函数确定各数据采集时刻的待确定状态信息对应的奖励值，以基于各数据采集时刻对应的奖励值对初始博弈模型进行模型参数的更新，直至初始博弈模型在各数据采集时刻对应的奖励值趋于稳定，且输出的与目标智能体对应的对抗博弈策略使得目标智能体可以用在与对方智能体的对抗博弈中的胜率大于预设胜率时，将此时的初始博弈模型作为目标博弈决策模型。解决了现有的建模技术很难构建与真实对抗博弈场景完全匹配的仿真数据，且现有技术中需要与建模仿真模型进行实时数据交互，导致存在数据量大且计算资源消耗大的问题，本技术方案中通过将目标智能体对应的真实博弈数据作为离线博弈数据，并基于离线博弈数据进行虚拟环境仿真模型的构建，进而基于虚拟环境仿真模型构建目标博弈决策模型的方法，实现了构建与目标智能体对应的更加准确的博弈模型，进而可以根据该博弈模型为目标智能体在真实对抗博弈过程中进行决策，提高目标智能体的对抗博弈的胜率的效果。

18、应当理解，本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征，也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种目标博弈决策模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述离线博弈数据集构建与所述目标智能体对应的虚拟环境仿真模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述待优化函数对应的待确定均值和待确定方差，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述待确定均值和所述待确定方差对所述初始环境仿真模型进行模型参数更新，得到与所述目标智能体对应的虚拟环境仿真模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述预估值和所述真实值对所述待优化仿真模型进行模型评估，得到与所述目标智能体对应的虚拟环境仿真模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述待使用态势信息输入预先构建的虚拟环境仿真模型中，得到所述目标智能体在下一数据采集时刻的待确定状态信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于至少一个数据采集时刻对应的待确定状态信息对所述目标智能体对应的初始博弈模型的模型参数进行迭代更新，得到

8.一种目标博弈决策模型的构建装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的目标博弈决策模型的构建方法。

...

【技术特征摘要】

1.一种目标博弈决策模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述离线博弈数据集构建与所述目标智能体对应的虚拟环境仿真模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述待优化函数对应的待确定均值和待确定方差，包括：

6.根据权利...

【专利技术属性】
技术研发人员：焦文明，陈杰，徐亮，俞扬，秦熔均，赵鉴，高耸屹，
申请(专利权)人：南栖仙策南京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人