基于强化学习的决策生成方法、装置、计算机设备和介质制造方法及图纸

技术编号：39324788 阅读：10 留言：0更新日期：2023-11-12 16:03

本公开提供一种基于强化学习的决策生成方法、装置、计算机设备和介质，包括：构建安全约束强化学习模型，安全约束强化学习模型由一个元组所描述，元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成，元组与目标应用场景相关联；基于安全约束强化学习模型，在目标应用场景中进行安全决策训练，以确定安全决策对应的奖励评估和安全评估；基于安全决策对应的奖励评估、安全评估以及预设的安全权重，对安全决策进行迭代更新，直至达到预先设置的训练次数，得到目标应用场景对应的目标决策。从而，通过自主学习自动更新训练目标决策，使得目标决策更贴合应用场景，有效提升决策的场景适用性。有效提升决策的场景适用性。有效提升决策的场景适用性。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的决策生成方法、装置、计算机设备和介质

[0001]本公开的实施例涉及人工智能
，具体地，涉及适用于一种基于强化学习的决策生成方法、装置、计算机设备和介质。

技术介绍

[0002]实际场景中所应用到的智能决策通常由人工预先设置或者系统基于历史数据自动生成，以应用于不同的实际场景中。如智能决策可应用于棋牌游戏、益智类游戏等。
[0003]然而，现有决策生产方法，决策固定不可变，场景适用性差。

技术实现思路

[0004]本文中描述的实施例提供了一种基于强化学习的决策生成方法、装置、计算机设备和介质，克服了上述问题。
[0005]第一方面，根据本公开的内容，提供了一种基于强化学习的决策生成方法，包括：
[0006]构建安全约束强化学习模型，所述安全约束强化学习模型由一个元组所描述，所述元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成，所述元组与目标应用场景相关联；
[0007]基于安全约束强化学习模型，在所述目标应用场景中进行安全决策训练，以确定安全决策对应的奖励评估和安全评估；
[0008]基于所述安全决策对应的所述奖励评估、所述安全评估以及预设的安全权重，对所述安全决策进行迭代更新，直至达到预先设置的训练次数，得到所述目标应用场景对应的目标决策；
[0009]其中，所述安全评估用于评估所述安全决策应用到所述目标应用场景中的安全性，所述奖励评估用于评估所述安全决策中已执行的预测动作的准确性。
[001...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的决策生成方法，其特征在于，包括：构建安全约束强化学习模型，所述安全约束强化学习模型由一个元组所描述，所述元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成，所述元组与目标应用场景相关联；基于安全约束强化学习模型，在所述目标应用场景中进行安全决策训练，以确定安全决策对应的奖励评估和安全评估；基于所述安全决策对应的所述奖励评估、所述安全评估以及预设的安全权重，对所述安全决策进行迭代更新，直至达到预先设置的训练次数，得到所述目标应用场景对应的目标决策；其中，所述安全评估用于评估所述安全决策应用到所述目标应用场景中的安全性，所述奖励评估用于评估所述安全决策中已执行的预测动作的准确性。2.根据权利要求1所述的方法，其特征在于，所述基于安全约束强化学习模型，在所述目标应用场景中进行安全决策训练，以确定安全决策对应的奖励评估和安全评估，包括：在所述状态空间中选取所述目标应用场景中的一个执行状态作为训练起始状态；在所述训练起始状态下确定每个所述时间步到达时，基于当前状态执行所述安全决策在动作空间中对应的预测动作；基于所述奖励函数确定所述预测动作的奖励值；基于所述安全成本函数确定所述预测动作的安全值；基于所述训练起始状态、所述当前状态、所述当前状态对应的所述预测动作、所述奖励值以及所述安全值，分别确定所述安全决策对应的奖励评估和安全评估。3.根据权利要求2所述的方法，其特征在于，所述基于所述安全决策对应的所述奖励评估、所述安全评估以及预设的安全权重，对所述安全决策进行迭代更新，直至达到预先设置的训练次数，得到所述目标应用场景对应的目标决策，包括：基于所述安全评估和预设安全阈值的比对，更新预设的所述安全权重；基于所述安全权重、所述奖励评估和所述安全评估，对所述安全决策进行更新，所述更新用于表征对所述安全决策中执行状态与预测动作之间的映射关系进行调整；基于所述状态转移概率函数确定所述当前状态的下一状态，将所述下一状态作为所述训练起始状态；在所述训练起始状态下执行所述安全决策的训练，直至所述安全决策的训练次数达到预先设置的训练次数，得到所述目标应用场景对应的所述目标决策。4.根据权利要求3所述的方法，其特征在于，所述基于所述安全评估和预设安全阈值的比对，更新预设的所述安全权重，包括：在确定所述安全评估小于所述预设安全阈值时，减小预设的所述安全权重；在确实所述安全评估大于所述预设安全阈值时，增大预设的所述安全权重。5.根据权利要求2所述的方法，其特征在于，所述安全决策的动作空间中包括执行状态与预测动...

【专利技术属性】
技术研发人员：杨奇松，李邦杰，陈正生，鲜勇，舒健生，潘乐飞，张大巧，常燕，
申请(专利权)人：中国人民解放军火箭军工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人