基于强化学习的智能体路径规划方法、电子设备及介质技术

技术编号:33451042 阅读:16 留言:0更新日期:2022-05-19 00:35
本发明专利技术涉及一种基于强化学习的智能体路径规划方法、电子设备及介质,方法包括:根据智能体采集的状态信息,通过训练好的目标网络获取智能体从当前位置到目标位置之间的动作;目标网络的训练过程包括:构建当前网络,目标网络和当前网络均为深度Q值网络,迭代执行目标网络更新步骤,该步骤包括:获取智能体采集的状态信息,进行数据预处理后存储至记忆库,根据优先经验回放机制在记忆库中选择训练样本;选择训练样本和动作,根据动作更改环境信息,获取下一状态的环境信息,根据TD

【技术实现步骤摘要】
基于强化学习的智能体路径规划方法、电子设备及介质


[0001]本专利技术涉及无人驾驶领域,尤其是涉及一种基于强化学习的智能体路径规划方法、电子设备及介质。

技术介绍

[0002]近年来人工智能技术的飞速发展为很多传统行业带来了新的活力,以汽车行业与物流行业为例,它们借助人工智能技术推出了无人驾驶的新模式。大到道路上的无人车,小到电商平台的送货机器人,无人驾驶的智能体正出现在我们生活的方方面面。
[0003]在无人驾驶领域,最为核心的无疑就是为智能体规划一条高质量的行驶路径,使得智能体能够根据控制模块发布的指令进行相应的移动,最终快速准确地完成分配给它的任务,这一过程就是智能体的路径规划。在实际的业务场景当中,智能体会根据其配备的传感器采集相应的环境信息,控制系统会根据智能体采集到的信息识别周边的障碍或者意外情况,从而选择一种合适的运动方式通过机器指令的方式发送给智能体,从而驱使智能体行动到目标地点,并且保证其不会出现碰撞等非正常行为。基于智能体对环境信息的了解程度,可以将路径规划问题划分为全局路径规划和局部路径规划。全局路径规划是在预先了解全局的环境信息下进行的路径规划,智能体在行驶过程中可能遇到的障碍物位置大小等都是固定的;局部路径规划场景下智能体对环境信息不了解或者部分了解,在运动过程中会碰到各种突发情况。这些意外既可能是道路整修导致的封路等,也可能是多智能体的路线冲突。这也对智能体提出了在行进过程中面对突发状况要调整行驶策略的要求,同时在行驶过程中对环境信息的搜寻也比全局路径规划的要求更高。
[0004]在局部路径规划中存在着两个比较显著的问题:
[0005]一方面是智能体对环境信息的了解需要通过传感器来进行,比如相机、激光雷达、红外线探测器等,但智能体针对这些传感器采集到的原始数据并不能直接使用,需要进行一些预处理之后才能用于决策;
[0006]另一方面,针对路径规划问题的研究已经由来已久。传统的路径规划算法可以大致分成四类,分别是基于图搜索的算法、基于采样的算法、智能仿生学算法和其他算法,这些算法均存在局部最优化问题。

技术实现思路

[0007]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于强化学习的智能体路径规划方法、电子设备及介质。
[0008]本专利技术的目的可以通过以下技术方案来实现:
[0009]一种基于强化学习的智能体路径规划方法,包括:
[0010]根据智能体采集的状态信息,通过训练好的目标网络获取智能体从当前位置到目标位置之间的动作;
[0011]所述的目标网络的训练过程包括:
[0012]构建当前网络,所述的目标网络和当前网络均为深度Q值网络,迭代执行目标网络更新步骤,直至目标网络收敛;
[0013]所述的目标网络更新步骤包括:
[0014]获取智能体采集的状态信息,进行数据预处理后存储至优先经验回放记忆库;
[0015]根据优先经验回放机制在记忆库中选择训练样本;
[0016]根据选择的训练样本,通过动作选择策略选择动作;
[0017]根据选择的动作更改环境信息,获取智能体下一个状态的环境信息,并进行数据预处理;
[0018]根据智能体下一个状态的环境信息,获取当前网络的Q值Q
当前网络
以及目标网络的目标Q值Q

目标网络
,所述的当前网络和
[0019]根据Q
当前网络
和Q

目标网络
计算TD

error;
[0020]根据TD

error训练当前网络;
[0021]根据软更新机制更新目标网络的网络参数;
[0022]更新记忆库中样本的选中概率。
[0023]进一步地,所述的动作选择策略采用ε

greedy策略,公式为:
[0024][0025]其中,a为动作,s为智能体采集的状态信息,ε为智能体的探索率。
[0026]进一步地,所述的TD

error的计算公式为:
[0027]TD

error=|y

i

y
i
|
[0028]y

i
=Q
当前网络
[0029]y

i
=r+Q

目标网络
[0030]其中,r为智能体执行一次动作后,通过奖惩策略计算得到的奖励值;
[0031]所述的奖惩策略包括:
[0032]根据智能体执行一次动作后获取的下一个状态的环境信息,确定奖惩场景以及对应的奖惩值,通过累计奖惩值获得奖励值。
[0033]进一步地,通过以下公式更新记忆库中样本的选中概率:
[0034]p
i
=|δ
i
|+ε2[0035]其中,p
i
为选择的训练样本在记忆库中被选中的概率,|δ
i
|为TD

error,ε2为设定值。
[0036]进一步地,所述的软更新机制的计算公式为:
[0037]Q

=τQ+(1

τ)Q

[0038]其中,Q

为目标网络,Q为当前网络,τ为更新比例。
[0039]进一步地,所述的状态信息包括智能体的姿态信息、智能体通过相机获取的图像信息以及激光雷达获取的雷达点云信息;
[0040]所述的数据预处理过程包括:
[0041]提取姿态信息、图像信息以及雷达点云信息的特征矩阵,并进行拼接,获得:环境信息数据。
[0042]进一步地,所述的姿态信息和雷达点云信息的特征矩阵的提取过程包括:
[0043]对姿态信息和雷达点云信息分别进行拼接,对拼接后的姿态信息和雷达点云信息分别进行数据叠帧;
[0044]通过LSTM网络分别提取姿态信息和雷达点云信息的特征矩阵。
[0045]进一步地,所述的图像信息的特征矩阵的提取过程包括:
[0046]压缩图像数据;
[0047]将图像信息中的三通道彩色图片转换为单通道灰度图;
[0048]对图像信息进行数据叠帧;
[0049]通过基于CBAM注意力机制的CNN网络提取图像信息的特征矩阵。
[0050]一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器调用所述程序指令能够执行所述的智能体路径规划方法。
[0051]一种计算机可读存储介质,包括计算机程序,所述计算机程序能够被处理器执行以实现所述的智能体路径规划方法。
[0052]与现有技术相比,本专利技术具有以如下有益效果:
[0053](1)本专利技术通过引入强化学习方法来解决传统路径规划方法的问题,强化学习模型训练成功本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的智能体路径规划方法,其特征在于,包括:根据智能体采集的状态信息,通过训练好的目标网络获取智能体从当前位置到目标位置之间的动作;所述的目标网络的训练过程包括:构建当前网络,所述的目标网络和当前网络均为深度Q值网络,迭代执行目标网络更新步骤,直至目标网络收敛;所述的目标网络更新步骤包括:获取智能体采集的状态信息,进行数据预处理后存储至优先经验回放记忆库;根据优先经验回放机制在记忆库中选择训练样本;根据选择的训练样本,通过动作选择策略选择动作;根据选择的动作更改环境信息,获取智能体下一个状态的环境信息,并进行数据预处理;根据智能体下一个状态的环境信息,获取当前网络的Q值Q
当前网络
以及目标网络的目标Q值Q

目标网络
,所述的当前网络和根据Q
当前网络
和Q

目标网络
计算TD

error;根据TD

error训练当前网络;根据软更新机制更新目标网络的网络参数;更新记忆库中样本的选中概率。2.根据权利要求1所述的一种基于强化学习的智能体路径规划方法,其特征在于,所述的动作选择策略采用ε

greedy策略,公式为:其中,a为动作,s为智能体采集的状态信息,ε为智能体的探索率。3.根据权利要求1所述的一种基于强化学习的智能体路径规划方法,其特征在于,所述的TD

error的计算公式为:TD

error=|y

i

y
i
|y

i
=Q
当前网络
y

i
=r+Q

目标网络
其中,r为智能体执行一次动作后,通过奖惩策略计算得到的奖励值;所述的奖惩策略包括:根据智能体执行一次动作后获取的下一个状态的环境信息,确定奖惩场景以及对应的奖惩...

【专利技术属性】
技术研发人员:禹祎凡付卫婷
申请(专利权)人:浙江同善人工智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1