The invention relates to a method of state space decomposition and subtarget creation based on deep learning technology. According to the domain specified reward mechanism, typical reinforcement learning (RL) agent learning completes the assigned task. To solve this problem, a framework has been developed. A deep RL agent can use a repeated attention mechanism, from a smaller, simpler domain to a more complex domain. The task is presented to the agent with the instructions of the image and the specified target. This meta - controller guides the agent to achieve its goals by designing a smaller sequence of subtasks in the state space to effectively decompose the target.
【技术实现步骤摘要】
一种基于深度学习技术的状态空间分解和子目标创建方法
:本专利技术涉及一种基于深度学习技术的状态空间分解和子目标创建方法。
技术介绍
设计一个深度学习框架,在该框架中,深度学习通过代理机制可以使用一个重复的注意机制,从而通过更小的、更简单的域映射到更复杂的域。学习任务以图像和指定目标的指令呈现给代理,采用元控制器通过在状态空间中设计若干个子任务序列来引导代理实现它的目标,从而有效地分解,元控制器会在关注的范围内创建子目标。采用元控制器,它学习分解状态空间,并在较小的空间内提供可解析的子目标,因为当底层代理解决原始任务时,元控制器正在处理一个延迟的奖赏问题,从而得到正强化。它提出一系列的子目标,从而使这种强化的期望最大化,除了创建子目标之外,元控制器还会对状态空间进行碎片化,使底层代理呈现一个较小的状态,从而可以轻松地为子目标学习一个最优策略,它通过使用一种注意力机制来完成这一过程,类似于重复的注意力模式,元控制器学会控制它的注意力,并且只将状态的一部分传递给代理。元控制器的公式是:(1)状态:S,是过去和现在状态表征。行动:A,是注意力的位置Lattn,以及一系列子 ...
【技术保护点】
一种基于深度学习技术的状态空间分解和子目标创建方法,其特征是:设计一个深度学习框架, 在该框架中,深度学习通过代理机制可以使用一个重复的注意机制,从而通过更小的、更简单的域映射到更复杂的域,学习任务以图像和指定目标的指令呈现给代理,采用元控制器通过在状态空间中设计若干个子任务序列来引导代理实现它的目标,从而有效地分解,元控制器会在关注的范围内创建子目标。
【技术特征摘要】
1.一种基于深度学习技术的状态空间分解和子目标创建方法,其特征是:设计一个深度学习框架,在该框架中,深度学习通过代理机制可以使用一个重复的注意机制,从而通过更小的、更简单的域映射到更复杂的域,学习任务以图像和指定目标的指令呈现给代理,采用元控制器通过在状态空间中设计若干个子任务序列来引导代理实现它的目标,从而有效地分解,元控制器会在关注的范围内创建子目标。2.根据权利要求1所述的元控制器,其特征是:采用元控制器,它学习分...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。