针对时间敏感的环境的多价值网络深度强化学习方法技术

技术编号：19481309 阅读：19 留言：0更新日期：2018-11-17 10:40

本发明专利技术公开了一种针对时间敏感的环境的多价值网络深度强化学习方法，多价值网络输出对应状态下的动作和下一次采取的网络类型，由于不同的网络类型有着不同的计算时间，通过调整下一次的网络类型来改变下一次的响应时间，响应时间影响着环境对智能体的奖赏值。在本方法中，由于可以动态地选择多个模型中的一个，从而使得智能体获得一个较好的奖赏值。

全部详细技术资料下载

【技术实现步骤摘要】
针对时间敏感的环境的多价值网络深度强化学习方法
本专利技术涉及人工智能
，尤其涉及一种针对时间敏感的环境的多价值网络深度强化学习方法。
技术介绍
深度强化学习在许多方面都有着应用，比如机器人控制，游戏博弈等等。在一些场景下，深度强化学习程序需要对输入进行迅速反应，给出当前状态下需要采取的操作。以即时策略类游戏为例，当程序观测到环境后，需要在尽可能短的时间内做出决策，对游戏中的单位采取操作。强化学习中主要为环境，智能体(agent)以及他们之间的交互。智能体进行感知，学习和决策。和智能体交互的所有其他的事物统称为环境。强化学习主要目标就是通过智能体和环境的过往交互过程学习出合适的策略。环境的状态用s表示。智能体采取策略f，在状态s下选取动作a作用于环境，策略f为状态s到动作a的映射，动作a表示为状态集合S中一个元素当前状态s到状态集合S中一个元素下一状态s’的映射。环境和智能体交互过程为环境的状态s，智能体采取动作a作用于环境，环境在动作a作用下发生变化T，同时智能体也会得到一个奖赏值r。智能体与环境交互过程如图1所示，其过程如下：第一步：在时刻t下，环境状态为si。si为强化学习中智能体的输入，其中i表示环境的第i次输入智能体，用以标记序列顺序。第二步：智能体得到输入si后在ti+Δti时间输出动作ai，动作ai作用于环境。第三步：环境在t’＝ti+t间隔时刻，将奖励值ri(ti+Δti)输入智能体。同时，环境将当前状态si+1输入智能体。强化学习主要通过最大化长期奖赏学习出策略。一般情况下，需要声明值函数V(s)和状态-动作值函数Q(s，a)。值函...

【技术保护点】
1.一种针对时间敏感的环境的多价值网络深度强化学习方法，其特征在于，包括：感知过程：接收当前时刻下，环境反馈的当前环境状态以及上一轮动作下的奖赏值；决策过程：根据当前环境状态，使用上一轮确定的或者预设的神经网络模型来计算出一系列Q值：Q(a，nn_style)，其中，Q值也即当前环境状态下采取某个动作的价值，a表示一个动作，nn_style对应于下一轮神经网络模型的序号，从而选出使Q值最大的动作及对应的下一轮神经网络模型的编号；其中，不同神经网络模型计算一系列Q值所耗费的时间各不相同；学习过程：利用目标值网络，来结合当前环境状态、上一轮动作下的奖赏值以及神经网络模型选出的动作来计算目标值，此时的目标值网络与计算Q值的神经网络模型具有相同结构；再根据目标值与神经网络模型计算出的最大的Q值对相应神经网络的参数进行更新。

【技术特征摘要】
1.一种针对时间敏感的环境的多价值网络深度强化学习方法，其特征在于，包括：感知过程：接收当前时刻下，环境反馈的当前环境状态以及上一轮动作下的奖赏值；决策过程：根据当前环境状态，使用上一轮确定的或者预设的神经网络模型来计算出一系列Q值：Q(a，nn_style)，其中，Q值也即当前环境状态下采取某个动作的价值，a表示一个动作，nn_style对应于下一轮神经网络模型的序号，从而选出使Q值最大的动作及对应的下一轮神经网络模型的编号；其中，不同神经网络模型计算一系列Q值所耗费的时间各不相同；学习过程：利用目标值网络，来结合当前环境状态、上一轮动作下的奖赏值以及神经网络模型选出的动作来计算目标值，此时的目标值网络与计算Q值的神经网络模型具有相同结构；再根据目标值与神经网络模型计算出的最大的Q值对相应神经网络的参数进行更新。2.根据权利要求1所述的一种针对时间敏感的环境的多价值网络深度强化学习方法，其特征在于，所述感知过程、决策过程、学习过程分别由智能体中的感知器、决策机、学习器来实现。3.根据权利要求2所述的一种针对时间敏感的环境的多价值网络深度强化学习方法，其特征在于，所述决策机包括：模型选择单元、当前值网络组以及输出单元；所述模型选择单元存储有本轮选择的神经网络模型的编号，该编号由输出单元在上一轮决策后传入，如果是首轮使用，则使用预设的神经网络模型；所述当前值网络组组中包含了多个值网络，每一个值网络都是一个神经网络模型，每一神经网络模型的输入为当前环境状态，输出为一系列的Q值；所述输出单元接收一系列的Q值，并选出使Q值最大的动作及对应的下一轮神经网络模型的序号，其中的动作由智能体执行，而下一轮神经网络模型的序号将输出到模型选择单元，使Q值最大的动作及对应的下一轮神经网络模型的序号将输出到学习器；如果第i轮使用第nn_stylei-1个神经网络模型进行计算，其计算耗时记为则执行动作的时刻约等于当前时刻加计算耗时4.根据权利要求2或3所述的一种针对时间敏感的环境的多价值网络深度强化学习方法，其特征在于，所述学习器包括：记忆回放单元...

【专利技术属性】
技术研发人员：孙广中，孙昊，秦宇泽，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人