【技术实现步骤摘要】
基于强化学习的智能体路径规划方法、电子设备及介质
[0001]本专利技术涉及无人驾驶领域,尤其是涉及一种基于强化学习的智能体路径规划方法、电子设备及介质。
技术介绍
[0002]近年来人工智能技术的飞速发展为很多传统行业带来了新的活力,以汽车行业与物流行业为例,它们借助人工智能技术推出了无人驾驶的新模式。大到道路上的无人车,小到电商平台的送货机器人,无人驾驶的智能体正出现在我们生活的方方面面。
[0003]在无人驾驶领域,最为核心的无疑就是为智能体规划一条高质量的行驶路径,使得智能体能够根据控制模块发布的指令进行相应的移动,最终快速准确地完成分配给它的任务,这一过程就是智能体的路径规划。在实际的业务场景当中,智能体会根据其配备的传感器采集相应的环境信息,控制系统会根据智能体采集到的信息识别周边的障碍或者意外情况,从而选择一种合适的运动方式通过机器指令的方式发送给智能体,从而驱使智能体行动到目标地点,并且保证其不会出现碰撞等非正常行为。基于智能体对环境信息的了解程度,可以将路径规划问题划分为全局路径规划和局部路径规划。全局路径规划是在预先了解全局的环境信息下进行的路径规划,智能体在行驶过程中可能遇到的障碍物位置大小等都是固定的;局部路径规划场景下智能体对环境信息不了解或者部分了解,在运动过程中会碰到各种突发情况。这些意外既可能是道路整修导致的封路等,也可能是多智能体的路线冲突。这也对智能体提出了在行进过程中面对突发状况要调整行驶策略的要求,同时在行驶过程中对环境信息的搜寻也比全局路径规划的要求更高。
[ ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的智能体路径规划方法,其特征在于,包括:根据智能体采集的状态信息,通过训练好的目标网络获取智能体从当前位置到目标位置之间的动作;所述的目标网络的训练过程包括:构建当前网络,所述的目标网络和当前网络均为深度Q值网络,迭代执行目标网络更新步骤,直至目标网络收敛;所述的目标网络更新步骤包括:获取智能体采集的状态信息,进行数据预处理后存储至优先经验回放记忆库;根据优先经验回放机制在记忆库中选择训练样本;根据选择的训练样本,通过动作选择策略选择动作;根据选择的动作更改环境信息,获取智能体下一个状态的环境信息,并进行数据预处理;根据智能体下一个状态的环境信息,获取当前网络的Q值Q
当前网络
以及目标网络的目标Q值Q
′
目标网络
,所述的当前网络和根据Q
当前网络
和Q
′
目标网络
计算TD
‑
error;根据TD
‑
error训练当前网络;根据软更新机制更新目标网络的网络参数;更新记忆库中样本的选中概率。2.根据权利要求1所述的一种基于强化学习的智能体路径规划方法,其特征在于,所述的动作选择策略采用ε
‑
greedy策略,公式为:其中,a为动作,s为智能体采集的状态信息,ε为智能体的探索率。3.根据权利要求1所述的一种基于强化学习的智能体路径规划方法,其特征在于,所述的TD
‑
error的计算公式为:TD
‑
error=|y
′
i
‑
y
i
|y
′
i
=Q
当前网络
y
′
i
=r+Q
′
目标网络
其中,r为智能体执行一次动作后,通过奖惩策略计算得到的奖励值;所述的奖惩策略包括:根据智能体执行一次动作后获取的下一个状态的环境信息,确定奖惩场景以及对应的奖惩...
【专利技术属性】
技术研发人员:禹祎凡,付卫婷,
申请(专利权)人:浙江同善人工智能技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。