基于对偶循环神经网络的序贯决策方法、装置及设备制造方法及图纸

技术编号:39255792 阅读:7 留言:0更新日期:2023-10-30 12:07
本发明专利技术公开了一种基于对偶循环神经网络的序贯决策方法、装置及设备,方法包括:对经马尔可夫决策过程建模的策略对抗环境中的每个离散时间步,接收策略对抗环境在时刻的当前状态以及多个历史状态,并叠加得到叠加状态;利用对偶循环神经网络对所述叠加状态进行推理,计算出时刻下的状态价值S及优势动作价值V,并生成每个动作的动作价值Q;基于当前状态,根据动作节点拓扑排序模块通过Min

【技术实现步骤摘要】
基于对偶循环神经网络的序贯决策方法、装置及设备


[0001]本专利技术涉及人工智能领域,具体地涉及一种基于对偶循环神经网络的序贯决策方法、装置及设备。

技术介绍

[0002]近年来,随着深度强化学习和高性能计算等技术的发展,人们对决策任务的要求随之提高,依靠大量人力工作的传统决策分析手段无法满足要求。序贯决策是指按时间顺序排列起来,以得到按顺序的各种决策(策略),是用于随机性或不确定性动态系统最优化的决策方法。智能决策可借助计算机利用现实世界的复杂信息来实现智能分析从而给出即时高效的决策,能够有效突破传统决策方法的局限,是迈向下一代人工智能的重要发展方向之一。同时,深度强化学习可以很好地解决序贯决策问题。因此针对新一代序贯决策的研究意义重大。
[0003]当前序贯决策建模方法主要有多目标规划,模糊序贯决策,强化学习等方法。多目标规划是常用的传统序贯决策方法。通过计算给定目标的正负偏差,在约束条件下确定各个目标的优先因子,再分别对每个目标进行求解。模糊序贯决策是研究在模糊环境下或者模糊系统中进行决策的数学理论和方法。模糊序贯决策的目标是把决策论域中的对象在模糊序贯下进行排序,或按某些模糊限制条件从决策域中选择出最优对象。强化学习方法通过马尔可夫过程建模,将决策环境抽象为基于马尔可夫决策过程的可交互环境,是目前解决序贯问题的主流方法。在一个深度强化学习系统中,智能体可以对环境做出观测,并根据观测做出决策。在决策之后,便能够获取环境返回的奖励。智能体根据奖励的值不断评估各个决策的价值,以改进自身的表现。
[0004]虽然上述方法取得了一些效果,但仍存在一定的局限性。
[0005]第一,决策序列不合常理、决策内容缺乏长远预期。对于众多研究来说,当前决策方法大多仅仅以奖励为导向,迭代更新各个动作被选取的权重,约束表达困难,且难以在多约束的情况下生成合理的决策序列,且决策方法容易收敛在局部最优。
[0006]第二,决策目标覆盖单一。当前决策方法仅能通过设置离散的多个目标,再以分配不同权重为驱动依次完成各目标。该方式无法综合考虑全局目标,且分配权重的过程易造成决策序列的抖动。
[0007]第三,无法对环境特征进行平滑拟合。当前的算法将序贯决策环境中的不同状态以离散单元的形式表示,可决策的环境状态需要处于有限范围内。若新观测到的环境特征不在离散集合中,则算法无法进行决策;若环境状态维度过高,则算法将耗费大量存储空间。

技术实现思路

[0008]有鉴于此,本专利技术的目的在于提供一种基于对偶循环神经网络的序贯决策方法、装置及设备,以改善上述问题。
[0009]本专利技术实施例提供了一种基于对偶循环神经网络的序贯决策方法,其包括:
[0010]对经马尔可夫决策过程建模的策略对抗环境中的每个离散时间步,接收策略对抗环境在时刻的当前状态以及多个历史状态,并通过叠加后得到叠加状态;
[0011]利用对偶循环神经网络对所述叠加状态进行推理,计算出时刻下的状态价值S及优势动作价值V,并根据所述状态价值S以及优势动作价值A生成动作空间中的每个动作的动作价值Q;
[0012]基于所述当前状态,根据动作节点拓扑排序模块通过Min

Max算法对动作空间的所有动作进行局部收益计算,并根据所述局部收益以及约束规则生成动作掩码;
[0013]根据每个动作的动作价值Q以及所述动作掩码确定输出至策略对抗环境的最终动作;
[0014]获取策略对抗环境基于所述最终动作给予各方的反馈,并进入到下一个离散时间步。
[0015]优选地,还包括:
[0016]对面向序贯策略对抗环境中的马尔可夫过程进行建模;建模步骤为:
[0017]将策略对抗环境中的每一个时间截面视作一个离散时间步,则对于一个时间离散的智能体/环境,有如下过程成立:
[0018][0019]其中对于离散时间指标,有;表示时刻下智能体对策略对抗环境的状态;表示时刻下一方智能体根据完全观测从动作空间选取的动作;表示时刻下策略对抗环境根据智能体采取的动作,回馈给己方智能体的奖励值,同时也会给予对手方的奖励值,并进入下一个时间截面状态;
[0020]在所述过程中引入概率和马尔可夫性,得到马尔可夫决策过程模型;其中,马尔可夫决策过程模型定义在时间,从状态和动作转移到下一个状态和奖励的概率为:
[0021][0022]其中,奖励和下一状态仅仅依赖于当前状态和动作,而不依赖于更早的状态和动作。
[0023]优选地,利用对偶循环神经网络对所述叠加状态进行推理,计算出时刻下的状态价值S及优势动作价值A,具体包括:
[0024]通过输入层接收所述叠加状态;
[0025]将叠加状态输入至层;其中,层的Q函数定义为:
[0026][0027]其中,提供了状态下的状态价值V的估计,为相应状态下的优势;为层的参数,和分别表示对偶循环神经网络中两个分支的参数;
[0028]在输出层输出状态价值V及优势动作价值A;其中,只与状态有关,而与状态动作都有关。
[0029]优选地,还包括:
[0030]通过预设的奖励函数计算奖励值r;
[0031]根据所述奖励值以及模型的优化目标反向传播更新模型的参数,使得模型具备更精准的状态及动作优势评估能力;其中,模型的优化目标为:
[0032][0033]为采样轨迹,由模型与对抗策略环境交互获得,为衰减系数,改变模型对不同期奖励值的重视程度,是相应参数的梯度。
[0034]优选地,基于所述当前状态,根据动作节点拓扑排序模块通过Min

Max算法对动作空间的所有动作进行局部收益计算,并根据所述局部收益以及约束规则生成动作掩码,具体包括:
[0035]根据拓扑结构与信息集中包含的环境特征,从当前状态以及给定方的动作节点开始,在收益评估层面上基于Min

Max算法进行搜索,在博弈树的结点从双方的动作空间内选取动作,并计算各个动作的局部收益;
[0036]基于约束规则确定所述动作空间中的不合规的动作;
[0037]根据所述局部收益以及所述不合规的动作生成动作掩码以屏蔽不合法的输出动作。
[0038]优选地,所述博弈树是扩展型的一种形象化表述,其基本构建部分包括结点、枝和信息集;结点包括决策结和终点结两类;决策结是参与人采取行动的,终点结是博弈行动路径的终点;枝是从一个决策结到它的直接后续结,每一个枝代表参与人的一个行动选择;博弈树上的所有决策结分割成不同的信息集;每一个信息集是决策集集合的一个子集,该子集包括所有满足下列条件的决策结:
[0039]每一个决策结都是同一参与人的决策结;
[0040]该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结。
[0041]优选地,所述约束规则定义如下:
[0042]存在有向边,使得动作之间存在拓扑关系;当动作节点与之间存在至少一条约束时,不能先于被本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对偶循环神经网络的序贯决策方法,其特征在于,包括:对经马尔可夫决策过程建模的策略对抗环境中的每个离散时间步t,接收策略对抗环境在t时刻的当前状态以及多个历史状态,并通过叠加后得到叠加状态;利用对偶循环神经网络对所述叠加状态进行推理,计算出时刻下的状态价值S及优势动作价值V,并根据所述状态价值S以及优势动作价值A生成动作空间中的每个动作的动作价值Q;基于所述当前状态,根据动作节点拓扑排序模块通过Min

Max算法对动作空间的所有动作进行局部收益计算,并根据所述局部收益以及约束规则生成动作掩码;根据每个动作的动作价值Q以及所述动作掩码确定输出至策略对抗环境的最终动作;获取策略对抗环境基于所述最终动作给予各方的反馈,并进入到下一个离散时间步t+1。2.根据权利要求1所述的基于对偶循环神经网络的序贯决策方法,其特征在于,还包括:对面向序贯策略对抗环境中的马尔可夫过程进行建模;建模步骤为:将策略对抗环境中的每一个时间截面视作一个离散时间步,则对于一个时间离散的智能体/环境,有如下过程成立:其中对于离散时间指标,有;表示时刻下智能体对策略对抗环境的状态;表示时刻下一方智能体根据完全观测从动作空间选取的动作;表示时刻下策略对抗环境根据智能体采取的动作,回馈给己方智能体的奖励值,同时也会给予对手方的奖励值,并进入下一个时间截面状态;在所述过程中引入概率和马尔可夫性,得到马尔可夫决策过程模型;其中,马尔可夫决策过程模型定义在时间,从状态和动作转移到下一个状态和奖励的概率为:3.其中,奖励和下一状态仅仅依赖于当前状态和动作,而不依赖于更早的状态和动作。4.根据权利要求2所述的基于对偶循环神经网络的序贯决策方法,其特征在于,利用对偶循环神经网络对所述叠加状态进行推理,计算出时刻下的状态价值S及优势动作价值A,具体包括:通过输入层接收所述叠加状态;将叠加状态输入至层;其中,层的Q函数定义为:5.其中,提供了状态下的状态价值V的估计,为相应状态下的优
势;为层的参数,和分别表示对偶循环神经网络中两个分支的参数;在输出层输出状态价值V及优势动作价值A;其中,只与状态有关,而与状态动作都有关。6.根据权利要求3所述的基于对偶循环神经网络的序贯决策方法,其特征在于,还包括:通过预设的奖励函数计算奖励值r;根据所述奖励值以及模型的优化目标反向传播更新模型的参数,使得模型具备更精准的状态及动作优势评估能力;其中,模型的优化目标为:7.为采样轨迹,由模型与对抗策略环境交互获得,为衰减系数,改变模型对不同期奖励值的重视程度,是相应参数的梯度。8.根据权利要求1所述的基于对偶循环神经网络的序贯决策方法,其特征在于,基于所述当前状...

【专利技术属性】
技术研发人员:温正棋黎苏亿
申请(专利权)人:中科极限元杭州智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1