针对时间敏感的环境的多价值网络深度强化学习方法技术

技术编号:19481309 阅读:19 留言:0更新日期:2018-11-17 10:40
本发明专利技术公开了一种针对时间敏感的环境的多价值网络深度强化学习方法,多价值网络输出对应状态下的动作和下一次采取的网络类型,由于不同的网络类型有着不同的计算时间,通过调整下一次的网络类型来改变下一次的响应时间,响应时间影响着环境对智能体的奖赏值。在本方法中,由于可以动态地选择多个模型中的一个,从而使得智能体获得一个较好的奖赏值。

【技术实现步骤摘要】
针对时间敏感的环境的多价值网络深度强化学习方法
本专利技术涉及人工智能
,尤其涉及一种针对时间敏感的环境的多价值网络深度强化学习方法。
技术介绍
深度强化学习在许多方面都有着应用,比如机器人控制,游戏博弈等等。在一些场景下,深度强化学习程序需要对输入进行迅速反应,给出当前状态下需要采取的操作。以即时策略类游戏为例,当程序观测到环境后,需要在尽可能短的时间内做出决策,对游戏中的单位采取操作。强化学习中主要为环境,智能体(agent)以及他们之间的交互。智能体进行感知,学习和决策。和智能体交互的所有其他的事物统称为环境。强化学习主要目标就是通过智能体和环境的过往交互过程学习出合适的策略。环境的状态用s表示。智能体采取策略f,在状态s下选取动作a作用于环境,策略f为状态s到动作a的映射,动作a表示为状态集合S中一个元素当前状态s到状态集合S中一个元素下一状态s’的映射。环境和智能体交互过程为环境的状态s,智能体采取动作a作用于环境,环境在动作a作用下发生变化T,同时智能体也会得到一个奖赏值r。智能体与环境交互过程如图1所示,其过程如下:第一步:在时刻t下,环境状态为si。si为强化学习中智能体的输入,其中i表示环境的第i次输入智能体,用以标记序列顺序。第二步:智能体得到输入si后在ti+Δti时间输出动作ai,动作ai作用于环境。第三步:环境在t’=ti+t间隔时刻,将奖励值ri(ti+Δti)输入智能体。同时,环境将当前状态si+1输入智能体。强化学习主要通过最大化长期奖赏学习出策略。一般情况下,需要声明值函数V(s)和状态-动作值函数Q(s,a)。值函数V(s)只是和状态s相关的函数,用来表示状态s下的价值,函数值为一个标量值。状态-动作值函数Q(s,a)表示在状态s下采取动作a的价值。值函数V(s)是状态-动作值函数Q(s,a)在所有动作a下的期望值,V(s)=Ea[Q(s,a)]。但是,实际情况下,一般这两个函数值都无法解析表达出来。在学习过程中,一般都是通过以往的数据近似表示出Q函数,然后在状态s下选取一个动作a使得Q函数的值达到最大。深度强化学习在是强化学习中采用深度神经网络进行计算。深度Q网络(DQN,DeepQNetwork)是深度强化学习中非常重要的方法。该方法是利用视觉图像信息作为输入,输出需要采取动作。它的核心的思想就是采用深度神经网络输出Q值,来代替传统方法的Q值表。在目前已有的工作中,奖赏一般都是与前后状态相关。在以往V.Mnih等人的工作中,奖赏在好的状态下设为1,坏的状态下设为-1,在没有变化的状态设为0。按照这样简明直观的方式设计出的奖赏在其文中的环境中可以得到非常好的效果,但是在时间敏感的环境中,需要对奖赏添加包含时间的项,然而这样的方式由于没有考虑到时间的显式关联,因此无法适用于时间敏感的环境中。
技术实现思路
本专利技术的目的是提供一种针对时间敏感的环境的多价值网络深度强化学习方法,考虑了环境会随时间自动变化,可以根据状态调节给出响应的时间。本专利技术的目的是通过以下技术方案实现的:一种针对时间敏感的环境的多价值网络深度强化学习方法,包括:感知过程:接收当前时刻下,环境反馈的当前环境状态以及上一轮动作下的奖赏值;决策过程:根据当前环境状态,使用上一轮确定的或者预设的神经网络模型来计算出一系列Q值:Q(a,nn_style),其中,Q值也即当前环境状态下采取某个动作的价值,a表示一个动作,nn_style对应于下一轮神经网络模型的序号,从而选出使Q值最大的动作及对应的下一轮神经网络模型的编号;其中,不同神经网络模型计算一系列Q值所耗费的时间各不相同;学习过程:利用目标值网络,来结合当前环境状态、上一轮动作下的奖赏值以及神经网络模型选出的动作来计算目标值,此时的目标值网络与计算Q值的神经网络模型具有相同结构;再根据目标值与神经网络模型计算出的最大的Q值对相应神经网络的参数进行更新。由上述本专利技术提供的技术方案可以看出,多价值网络输出对应状态下的动作和下一次采取的网络类型,由于不同的网络类型有着不同的计算时间,通过调整下一次的网络类型来改变下一次的响应时间,响应时间影响着环境对智能体的奖赏值。在本方法中,由于可以动态地选择多个模型中的一个,从而使得智能体获得一个较好的奖赏值,从而提升学习效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为
技术介绍
提供的强化学习中智能体与环境交互的示意图;图2为本专利技术实施例提供的一种针对时间敏感的环境的多价值网络深度强化学习方法的流程图;图3为本专利技术实施例提供的多价值网络深度强化学习方法框架图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。为了解决面对环境发生随时间变化情况下,强化学习可以根据环境状态调节给出响应的时间并且调整使用的价值网络,本专利技术实施例提供一种针对时间敏感的环境的多价值网络深度强化学习方法,该方法考虑了环境会随时间自动变化,智能体获得的奖赏r是关于时间的函数r(t)。如图1所示,其主要包括:感知过程:接收当前时刻下,环境反馈的当前环境状态以及上一轮动作下的奖赏值;决策过程:根据当前环境状态,使用上一轮确定的或者预设的神经网络模型来计算出一系列Q值:Q(a,nn_style),其中,Q值也即当前环境状态下采取某个动作的价值,a表示一个动作,nn_style对应于下一轮神经网络模型的序号,从而选出使Q值最大的动作及对应的下一轮神经网络模型的编号;其中,不同神经网络模型计算一系列Q值所耗费的时间各不相同;学习过程:利用目标值网络,来结合当前环境状态、上一轮动作下的奖赏值以及神经网络模型选出的动作来计算目标值,此时的目标值网络与计算Q值的神经网络模型具有相同结构;再根据目标值与神经网络模型计算出的最大的Q值对相应神经网络的参数进行更新。本专利技术实施例中,所述感知过程、决策过程、学习过程分别由智能体中的感知器、决策机、学习器来实现;下面针对智能体内的三个部分做详细的介绍。一、感知器。感知器对环境输入进行处理,将处理之后的信息交个其余组件处理。在专利技术实施例中,感知器不会对输入数据进行计算,主要将各类别输入数据分别输入到各个组件。在ti时刻,环境输入当前的状态si和环境在前一轮动作下的奖赏值ri-1(ti-1+Δti-1)。若ti为初始时刻,则环境只有输入状态,没有奖赏值。ti、ti-1为相邻两轮的开始时刻,Δti-1为前一轮所耗费的时间。感知器将环境状态si输入决策机,将环境状态si和前一轮动作下的奖赏值ri-1(ti-1+Δti-1)输入学习器。二、决策机。所述决策机包括:模型选择单元、当前值网络组以及输出单元。1、模型选择单元(输入单元)。所述模型选择单元存储有本轮选择的神经网络模型的编号nn_stylei-1,该编号本文档来自技高网
...

【技术保护点】
1.一种针对时间敏感的环境的多价值网络深度强化学习方法,其特征在于,包括:感知过程:接收当前时刻下,环境反馈的当前环境状态以及上一轮动作下的奖赏值;决策过程:根据当前环境状态,使用上一轮确定的或者预设的神经网络模型来计算出一系列Q值:Q(a,nn_style),其中,Q值也即当前环境状态下采取某个动作的价值,a表示一个动作,nn_style对应于下一轮神经网络模型的序号,从而选出使Q值最大的动作及对应的下一轮神经网络模型的编号;其中,不同神经网络模型计算一系列Q值所耗费的时间各不相同;学习过程:利用目标值网络,来结合当前环境状态、上一轮动作下的奖赏值以及神经网络模型选出的动作来计算目标值,此时的目标值网络与计算Q值的神经网络模型具有相同结构;再根据目标值与神经网络模型计算出的最大的Q值对相应神经网络的参数进行更新。

【技术特征摘要】
1.一种针对时间敏感的环境的多价值网络深度强化学习方法,其特征在于,包括:感知过程:接收当前时刻下,环境反馈的当前环境状态以及上一轮动作下的奖赏值;决策过程:根据当前环境状态,使用上一轮确定的或者预设的神经网络模型来计算出一系列Q值:Q(a,nn_style),其中,Q值也即当前环境状态下采取某个动作的价值,a表示一个动作,nn_style对应于下一轮神经网络模型的序号,从而选出使Q值最大的动作及对应的下一轮神经网络模型的编号;其中,不同神经网络模型计算一系列Q值所耗费的时间各不相同;学习过程:利用目标值网络,来结合当前环境状态、上一轮动作下的奖赏值以及神经网络模型选出的动作来计算目标值,此时的目标值网络与计算Q值的神经网络模型具有相同结构;再根据目标值与神经网络模型计算出的最大的Q值对相应神经网络的参数进行更新。2.根据权利要求1所述的一种针对时间敏感的环境的多价值网络深度强化学习方法,其特征在于,所述感知过程、决策过程、学习过程分别由智能体中的感知器、决策机、学习器来实现。3.根据权利要求2所述的一种针对时间敏感的环境的多价值网络深度强化学习方法,其特征在于,所述决策机包括:模型选择单元、当前值网络组以及输出单元;所述模型选择单元存储有本轮选择的神经网络模型的编号,该编号由输出单元在上一轮决策后传入,如果是首轮使用,则使用预设的神经网络模型;所述当前值网络组组中包含了多个值网络,每一个值网络都是一个神经网络模型,每一神经网络模型的输入为当前环境状态,输出为一系列的Q值;所述输出单元接收一系列的Q值,并选出使Q值最大的动作及对应的下一轮神经网络模型的序号,其中的动作由智能体执行,而下一轮神经网络模型的序号将输出到模型选择单元,使Q值最大的动作及对应的下一轮神经网络模型的序号将输出到学习器;如果第i轮使用第nn_stylei-1个神经网络模型进行计算,其计算耗时记为则执行动作的时刻约等于当前时刻加计算耗时4.根据权利要求2或3所述的一种针对时间敏感的环境的多价值网络深度强化学习方法,其特征在于,所述学习器包括:记忆回放单元...

【专利技术属性】
技术研发人员:孙广中孙昊秦宇泽
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1