基于动态噪声网络的深度强化学习探索方法及组件技术

技术编号：38993048 阅读：12 留言：0更新日期：2023-10-07 10:23

本发明专利技术涉及深度强化学习探索技术领域，提供一种基于动态噪声网络的深度强化学习探索方法及组件，该方法包括：初始化智能体深度强化学习模型的参数和仿真环境，元策略网络和元价值网络的最后一层均为噪声线性层；智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；根据数据收集列表更新智能体深度强化学习模型的参数；在数据收集列表收集的数据量满足第一预设数据阈值时，深度强化学习探索迭代完成。本发明专利技术在元策略网络和元价值网络中引入了噪声，使其生成更多样化的网络参数，提高智能体的行为多样性，从而有效提高智能体的探索效率。从而有效提高智能体的探索效率。从而有效提高智能体的探索效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于动态噪声网络的深度强化学习探索方法及组件

[0001]本专利技术涉及深度强化学习探索
，尤其涉及一种基于动态噪声网络的深度强化学习探索方法及组件。

技术介绍

[0002]随着深度强化学习技术的迅猛发展，其被广泛应用于人工智能、游戏竞技和自动驾驶等领域。探索问题是当代深度强化学习的一个关键挑战。其主要目的是防止智能体的策略过早地收敛到一个局部最优。传统探索方法通过引入额外的虚拟奖励信号，来引导智能体的探索行为。然而，传统方法的问题在于需要细致的选择权重，以平衡虚拟奖励信号和真实的环境奖励信号，不恰当的权重会使得虚拟奖励信号改变最优策略，导致智能体的探索行为受限。

技术实现思路

[0003]本专利技术提供一种基于动态噪声网络的深度强化学习探索方法及组件，用以解决现有技术中虚拟奖励信号的权重不恰当，导致智能体的探索行为受限缺陷，本专利技术在元策略网络和元价值网络中引入了噪声，使其生成更多样化的网络参数，提高智能体的行为多样性，从而有效提高智能体的探索效率。
[0004]本专利技术提供一种基于动态噪声网络的深度强化学习探索方法，包括：初始化智能体深度强化学习模型的参数和仿真环境，所述智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络；所述元策略网络和所述元价值网络的最后一层均为噪声线性层；所述智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；根据所述数据收集列表更新所述智能体深度强化学习模型的参数；在所述数据收集列表收集的数据量满

【技术保护点】

【技术特征摘要】
1.一种基于动态噪声网络的深度强化学习探索方法，其特征在于，包括：初始化智能体深度强化学习模型的参数和仿真环境，所述智能体深度强化学习模型包括智能体的策略网络、智能体的价值网络、元策略网络和元价值网络；所述元策略网络和所述元价值网络的最后一层均为噪声线性层；所述智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表；根据所述数据收集列表更新所述智能体深度强化学习模型的参数；在所述数据收集列表收集的数据量满足第一预设数据阈值时，深度强化学习探索迭代完成。2.根据权利要求1所述的基于动态噪声网络的深度强化学习探索方法，其特征在于，所述根据所述数据收集列表更新所述智能体深度强化学习模型的参数之后，还包括：在所述数据收集列表收集的数据量不满足所述第一预设数据阈值时，清空数据收集列表，保存所述智能体深度强化学习模型的参数，并执行所述智能体深度强化学习模型与仿真环境交互训练的步骤。3.根据权利要求1所述的基于动态噪声网络的深度强化学习探索方法，其特征在于，所述智能体深度强化学习模型与仿真环境交互训练，并将交互训练的数据存入数据收集列表，包括：所述元策略网络以当前环境的状态数据为输入，输出所述智能体的策略网络的最后一层的参数；所述智能体的策略网络以当前环境的状态数据为输入，并根据所述智能体的策略网络的最后一层的参数，输出动作；所述元价值网络以当前环境的状态数据为输入，输出所述智能体的价值网络的最后一层的参数；所述智能体的价值网络以当前环境的状态数据为输入，并根据所述智能体的价值网络的最后一层的参数，输出价值；所述仿真环境以当前环境的状态数据、所述动作和所述价值为输入，输出下一时刻的状态、智能体获得的奖励和终止标识符，以获取交互训练的五元组；在所述仿真环境的状态数据满足第二预设数据阈值时，将所述交互训练的五元组存入数据收集列表。4.根据权利要求3所述的基于动态噪声网络的深度强化学习探索方法，其特征在于，所述仿真环境以当前环境的状态数据、所述动作和所述价值为输入，输出下一时刻的状态、智能体获得的奖励和终止标识符之后，还包括：在所述仿真环境的状态数据不满足第二预设数据阈值时，执行所述元策略网络以当前环境的状态数据为输入，输出所述智能体的策...

【专利技术属性】
技术研发人员：路圣汉，
申请(专利权)人：北京汉勃科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人