当前位置: 首页 > 专利查询>同济大学专利>正文

一种智能体深度强化学习方法及计算机可读介质技术

技术编号:32473651 阅读:17 留言:0更新日期:2022-03-02 09:35
本发明专利技术涉及一种智能体深度强化学习方法及计算机可读介质,其中智能体深度强化学习方法包括:步骤1:搭建动作决策网络以及评价网络,并对其进行随机初始化;步骤2:利用已有策略在环境中进行交互,动作决策网络和评价网络根据环境中的观察生成智能体的动作决策,智能体根据决策在环境中行动并尝试完成指定的任务;步骤3:基于步骤2中智能体产生的行动轨迹和观察轨迹,利用双延迟深度确定性策略梯度优化评价网络以及动作决策网络的参数,然后返回步骤2;步骤4:重复步骤2和步骤3,直到采样的轨迹价值稳定,完成智能体的深度强化学习。与现有技术相比,本发明专利技术具有决策能力好等优点。本发明专利技术具有决策能力好等优点。本发明专利技术具有决策能力好等优点。

【技术实现步骤摘要】
一种智能体深度强化学习方法及计算机可读介质


[0001]本专利技术涉及智能体自主学习
,尤其是涉及一种智能体深度强化学习方法及计算机可读介质。

技术介绍

[0002]随着信息技术以及人工智能的快速发展,机器人技术在服务、医疗、运输、人机协作等领域起到了越来越重要的作用。为了让机器人适应不同的任务,需要专业的技术人员根据任务需求,手动设计机器人工作流程,并有针对性地对机器人进行编程。该过程的效率较低,且鲁棒性不佳,场景、任务的微小变动都可能导致机器人任务执行失败,这极大制约了机器人技术的应用与推广。因此,机器人自主学习的能力是十分重要的。
[0003]强化学习方法通过奖励函数引导机器人探索决策空间,最终搜寻到最优的决策,是一种交互式的学习。机器人与环境进行交互,并基于奖励函数获得奖励与惩罚,在环境中探索可能产生最大奖励的决策路径。深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,为复杂系统的感知决策问题提供了解决思路。根据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种智能体深度强化学习方法,其特征在于,所述的智能体深度强化学习方法包括:步骤1:搭建动作决策网络以及评价网络,并对其进行随机初始化;步骤2:利用已有策略在环境中进行交互,动作决策网络和评价网络根据环境中的观察生成智能体的动作决策,智能体根据决策在环境中行动并尝试完成指定的任务;步骤3:基于步骤2中智能体产生的行动轨迹和观察轨迹,利用双延迟深度确定性策略梯度优化评价网络以及动作决策网络的参数,然后返回步骤2;步骤4:重复步骤2和步骤3,直到采样的轨迹价值稳定,完成智能体的深度强化学习。2.根据权利要求1所述的一种智能体深度强化学习方法,其特征在于,所述的步骤1具体为:动作决策网络和评价网络均为深度神经网络,分别表示为:为:其中,o
t
为t时刻下的观测;为在t时刻下,长度为l的历史序列;a
t
为t时刻下的动作决策;t≥l。3.根据权利要求2所述的一种智能体深度强化学习方法,其特征在于,所述的动作决策网络具体为:其中,μ
c
(o
t
)表示由当前观测直接得到的潜在变量,表示由历史序列得到的潜在变量,μ
p
表示结合直接观测与历史序列的综合决策,得到在当前状态的最优决策。4.根据权利要求2所述的一种智能体深度强化学习方法,其特征在于,所述的评价网络具体为:其中,Q
c
(o
t
,a
t
)表示由当前观测以及采取的动作决策直接得到的潜在变量,表示由历史序列得到的潜在变量,Q
p
表示在当前观测与历史序列下采取决策可能产生的奖励,作为采取动作的评判标准。5.根据权利要求2所述的一种智能体深度强化学习方法,其特征在于,所述的步骤1还包括:对于历史序列输入,采用LSTM网络对历史序列(o
t
,a
t
)进行选择性记忆,由门控信号z来控制,最终得到由历史序列编码的潜在变量。6.根据权利要求1所述的一种智能体深度强化学习方法,其特征在于,所述的步骤2具体为:动作决策网络根据机器人的初始观测...

【专利技术属性】
技术研发人员:尤鸣宇付豪
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1