基于强化学习的决策生成方法、装置、计算机设备和介质制造方法及图纸

技术编号:39324788 阅读:10 留言:0更新日期:2023-11-12 16:03
本公开提供一种基于强化学习的决策生成方法、装置、计算机设备和介质,包括:构建安全约束强化学习模型,安全约束强化学习模型由一个元组所描述,元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成,元组与目标应用场景相关联;基于安全约束强化学习模型,在目标应用场景中进行安全决策训练,以确定安全决策对应的奖励评估和安全评估;基于安全决策对应的奖励评估、安全评估以及预设的安全权重,对安全决策进行迭代更新,直至达到预先设置的训练次数,得到目标应用场景对应的目标决策。从而,通过自主学习自动更新训练目标决策,使得目标决策更贴合应用场景,有效提升决策的场景适用性。有效提升决策的场景适用性。有效提升决策的场景适用性。

【技术实现步骤摘要】
基于强化学习的决策生成方法、装置、计算机设备和介质


[0001]本公开的实施例涉及人工智能
,具体地,涉及适用于一种基于强化学习的决策生成方法、装置、计算机设备和介质。

技术介绍

[0002]实际场景中所应用到的智能决策通常由人工预先设置或者系统基于历史数据自动生成,以应用于不同的实际场景中。如智能决策可应用于棋牌游戏、益智类游戏等。
[0003]然而,现有决策生产方法,决策固定不可变,场景适用性差。

技术实现思路

[0004]本文中描述的实施例提供了一种基于强化学习的决策生成方法、装置、计算机设备和介质,克服了上述问题。
[0005]第一方面,根据本公开的内容,提供了一种基于强化学习的决策生成方法,包括:
[0006]构建安全约束强化学习模型,所述安全约束强化学习模型由一个元组所描述,所述元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成,所述元组与目标应用场景相关联;
[0007]基于安全约束强化学习模型,在所述目标应用场景中进行安全决策训练,以确定安全决策对应的奖励评估和安全评估;
[0008]基于所述安全决策对应的所述奖励评估、所述安全评估以及预设的安全权重,对所述安全决策进行迭代更新,直至达到预先设置的训练次数,得到所述目标应用场景对应的目标决策;
[0009]其中,所述安全评估用于评估所述安全决策应用到所述目标应用场景中的安全性,所述奖励评估用于评估所述安全决策中已执行的预测动作的准确性。
[0010]第二方面,根据本公开的内容,提供了一种基于强化学习的决策生成装置,包括:
[0011]构建模块,用于构建安全约束强化学习模型,所述安全约束强化学习模型由一个元组所描述,所述元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成,所述元组与目标应用场景相关联;
[0012]训练模块,用于基于安全约束强化学习模型,在所述目标应用场景中进行安全决策训练,以确定安全决策对应的奖励评估和安全评估;
[0013]确定模块,用于基于所述安全决策对应的所述奖励评估、所述安全评估以及预设的安全权重,对所述安全决策进行迭代更新,直至达到预先设置的训练次数,得到所述目标应用场景对应的目标决策;
[0014]其中,所述安全评估用于评估所述安全决策应用到所述目标应用场景中的安全性,所述奖励评估用于评估所述安全决策中已执行的预测动作的准确性。
[0015]第三方面,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,处理器执行计算机程序时实现如以上任意一个实施例中基于强化学习的决策生成方
法的步骤。
[0016]第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如以上任意一个实施例中基于强化学习的决策生成方法的步骤。
[0017]本申请实施例提供的基于强化学习的决策生成方法,构建安全约束强化学习模型,安全约束强化学习模型由一个元组所描述,元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成,元组与目标应用场景相关联;基于安全约束强化学习模型,在目标应用场景中进行安全决策训练,以确定安全决策对应的奖励评估和安全评估;基于安全决策对应的奖励评估、安全评估以及预设的安全权重,对安全决策进行迭代更新,直至达到预先设置的训练次数,得到目标应用场景对应的目标决策;其中,安全评估用于评估安全决策应用到目标应用场景中的安全性,奖励评估用于评估安全决策中已执行的预测动作的准确性。如此,通过自主学习自动更新训练目标决策,使得目标决策更贴合应用场景,有效提升决策的场景适用性。
[0018]上述说明仅是本申请实施例技术方案的概述,为了能够更清楚了解本申请实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本申请实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0019]为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的附图进行简要说明,应当知道,以下描述的附图仅仅涉及本公开的一些实施例,而非对本公开的限制,其中:
[0020]图1是本公开实施例提供的一种基于强化学习的决策生成方法的流程示意图。
[0021]图2是本公开实施例提供的一种基于强化学习的决策生成装置的结构示意图。
[0022]图3是本公开实施例提供的一种计算机设备的结构示意图。
[0023]需要注意的是,附图中的元素是示意性的,没有按比例绘制。
具体实施方式
[0024]为了使本公开的实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本公开的实施例的技术方案进行清楚、完整的描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例,也都属于本公开保护的范围。
[0025]除非另外定义,否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是,诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义,并且将不以理想化或过于正式的形式来解释,除非在此另外明确定义。如在此所使用的,将两个或更多部分“连接”或“耦接”到一起的陈述应指这些部分直接结合到一起或通过一个或多个中间部件结合。
[0026]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语“实施例”并不一定均
是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0027]本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:存在A,同时存在A和B,存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。诸如“第一”和“第二”的术语仅用于将一个部件(或部件的一部分)与另一个部件(或部件的另一部分)区分开。
[0028]在本申请的描述中,除非另有说明,“多个”的含义是指两个以上(包括两个),同理,“多组”指的是两组以上(包括两组)。
[0029]值分布强化学习(Distributional Reinforcement Learning,DRL)是一类基于价值的强化学习算法(Value

based Reinforcement Learning,VRL)。
[0030]经典的基于价值的强化学习方法尝试使用期望值对累积回报进行建模,表示为价值函数或动作价值函数,但在建模过程中,完整的分布信息很大程度上被丢失了,值分布强化学习有效的解决了这个问本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的决策生成方法,其特征在于,包括:构建安全约束强化学习模型,所述安全约束强化学习模型由一个元组所描述,所述元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成,所述元组与目标应用场景相关联;基于安全约束强化学习模型,在所述目标应用场景中进行安全决策训练,以确定安全决策对应的奖励评估和安全评估;基于所述安全决策对应的所述奖励评估、所述安全评估以及预设的安全权重,对所述安全决策进行迭代更新,直至达到预先设置的训练次数,得到所述目标应用场景对应的目标决策;其中,所述安全评估用于评估所述安全决策应用到所述目标应用场景中的安全性,所述奖励评估用于评估所述安全决策中已执行的预测动作的准确性。2.根据权利要求1所述的方法,其特征在于,所述基于安全约束强化学习模型,在所述目标应用场景中进行安全决策训练,以确定安全决策对应的奖励评估和安全评估,包括:在所述状态空间中选取所述目标应用场景中的一个执行状态作为训练起始状态;在所述训练起始状态下确定每个所述时间步到达时,基于当前状态执行所述安全决策在动作空间中对应的预测动作;基于所述奖励函数确定所述预测动作的奖励值;基于所述安全成本函数确定所述预测动作的安全值;基于所述训练起始状态、所述当前状态、所述当前状态对应的所述预测动作、所述奖励值以及所述安全值,分别确定所述安全决策对应的奖励评估和安全评估。3.根据权利要求2所述的方法,其特征在于,所述基于所述安全决策对应的所述奖励评估、所述安全评估以及预设的安全权重,对所述安全决策进行迭代更新,直至达到预先设置的训练次数,得到所述目标应用场景对应的目标决策,包括:基于所述安全评估和预设安全阈值的比对,更新预设的所述安全权重;基于所述安全权重、所述奖励评估和所述安全评估,对所述安全决策进行更新,所述更新用于表征对所述安全决策中执行状态与预测动作之间的映射关系进行调整;基于所述状态转移概率函数确定所述当前状态的下一状态,将所述下一状态作为所述训练起始状态;在所述训练起始状态下执行所述安全决策的训练,直至所述安全决策的训练次数达到预先设置的训练次数,得到所述目标应用场景对应的所述目标决策。4.根据权利要求3所述的方法,其特征在于,所述基于所述安全评估和预设安全阈值的比对,更新预设的所述安全权重,包括:在确定所述安全评估小于所述预设安全阈值时,减小预设的所述安全权重;在确实所述安全评估大于所述预设安全阈值时,增大预设的所述安全权重。5.根据权利要求2所述的方法,其特征在于,所述安全决策的动作空间中包括执行状态与预测动...

【专利技术属性】
技术研发人员:杨奇松李邦杰陈正生鲜勇舒健生潘乐飞张大巧常燕
申请(专利权)人:中国人民解放军火箭军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1