【技术实现步骤摘要】
基于对偶循环神经网络的序贯决策方法、装置及设备
[0001]本专利技术涉及人工智能领域,具体地涉及一种基于对偶循环神经网络的序贯决策方法、装置及设备。
技术介绍
[0002]近年来,随着深度强化学习和高性能计算等技术的发展,人们对决策任务的要求随之提高,依靠大量人力工作的传统决策分析手段无法满足要求。序贯决策是指按时间顺序排列起来,以得到按顺序的各种决策(策略),是用于随机性或不确定性动态系统最优化的决策方法。智能决策可借助计算机利用现实世界的复杂信息来实现智能分析从而给出即时高效的决策,能够有效突破传统决策方法的局限,是迈向下一代人工智能的重要发展方向之一。同时,深度强化学习可以很好地解决序贯决策问题。因此针对新一代序贯决策的研究意义重大。
[0003]当前序贯决策建模方法主要有多目标规划,模糊序贯决策,强化学习等方法。多目标规划是常用的传统序贯决策方法。通过计算给定目标的正负偏差,在约束条件下确定各个目标的优先因子,再分别对每个目标进行求解。模糊序贯决策是研究在模糊环境下或者模糊系统中进行决策的数学理论和方法。模糊序贯决策的目标是把决策论域中的对象在模糊序贯下进行排序,或按某些模糊限制条件从决策域中选择出最优对象。强化学习方法通过马尔可夫过程建模,将决策环境抽象为基于马尔可夫决策过程的可交互环境,是目前解决序贯问题的主流方法。在一个深度强化学习系统中,智能体可以对环境做出观测,并根据观测做出决策。在决策之后,便能够获取环境返回的奖励。智能体根据奖励的值不断评估各个决策的价值,以改进自身的表现。
[ ...
【技术保护点】
【技术特征摘要】
1.一种基于对偶循环神经网络的序贯决策方法,其特征在于,包括:对经马尔可夫决策过程建模的策略对抗环境中的每个离散时间步t,接收策略对抗环境在t时刻的当前状态以及多个历史状态,并通过叠加后得到叠加状态;利用对偶循环神经网络对所述叠加状态进行推理,计算出时刻下的状态价值S及优势动作价值V,并根据所述状态价值S以及优势动作价值A生成动作空间中的每个动作的动作价值Q;基于所述当前状态,根据动作节点拓扑排序模块通过Min
‑
Max算法对动作空间的所有动作进行局部收益计算,并根据所述局部收益以及约束规则生成动作掩码;根据每个动作的动作价值Q以及所述动作掩码确定输出至策略对抗环境的最终动作;获取策略对抗环境基于所述最终动作给予各方的反馈,并进入到下一个离散时间步t+1。2.根据权利要求1所述的基于对偶循环神经网络的序贯决策方法,其特征在于,还包括:对面向序贯策略对抗环境中的马尔可夫过程进行建模;建模步骤为:将策略对抗环境中的每一个时间截面视作一个离散时间步,则对于一个时间离散的智能体/环境,有如下过程成立:其中对于离散时间指标,有;表示时刻下智能体对策略对抗环境的状态;表示时刻下一方智能体根据完全观测从动作空间选取的动作;表示时刻下策略对抗环境根据智能体采取的动作,回馈给己方智能体的奖励值,同时也会给予对手方的奖励值,并进入下一个时间截面状态;在所述过程中引入概率和马尔可夫性,得到马尔可夫决策过程模型;其中,马尔可夫决策过程模型定义在时间,从状态和动作转移到下一个状态和奖励的概率为:3.其中,奖励和下一状态仅仅依赖于当前状态和动作,而不依赖于更早的状态和动作。4.根据权利要求2所述的基于对偶循环神经网络的序贯决策方法,其特征在于,利用对偶循环神经网络对所述叠加状态进行推理,计算出时刻下的状态价值S及优势动作价值A,具体包括:通过输入层接收所述叠加状态;将叠加状态输入至层;其中,层的Q函数定义为:5.其中,提供了状态下的状态价值V的估计,为相应状态下的优
势;为层的参数,和分别表示对偶循环神经网络中两个分支的参数;在输出层输出状态价值V及优势动作价值A;其中,只与状态有关,而与状态动作都有关。6.根据权利要求3所述的基于对偶循环神经网络的序贯决策方法,其特征在于,还包括:通过预设的奖励函数计算奖励值r;根据所述奖励值以及模型的优化目标反向传播更新模型的参数,使得模型具备更精准的状态及动作优势评估能力;其中,模型的优化目标为:7.为采样轨迹,由模型与对抗策略环境交互获得,为衰减系数,改变模型对不同期奖励值的重视程度,是相应参数的梯度。8.根据权利要求1所述的基于对偶循环神经网络的序贯决策方法,其特征在于,基于所述当前状...
【专利技术属性】
技术研发人员:温正棋,黎苏亿,
申请(专利权)人:中科极限元杭州智能科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。