当前位置: 首页 > 专利查询>山西大学专利>正文

一种无人车自主决策方法、系统、介质及产品技术方案

技术编号:42408744 阅读:18 留言:0更新日期:2024-08-16 16:27
本发明专利技术公开一种无人车自主决策方法、系统、介质及产品,涉及无人车技术领域,方法包括:根据离线数据集采用监督学习算法分别训练N个环境模型网络,得到N个训练好的环境模型网络;根据离线数据集采用模仿学习算法训练行为策略网络,得到训练好的行为策略网络;采用强化学习训练目标策略网络得到训练好的目标策略网络:在对目标策略网络的每轮训练过程中,采用当前目标策略网络和训练好的环境模型网络进行交互的训练方式训练当前目标策略网络,在环境反馈的奖励中引入环境模型偏差和策略偏差;采用训练好的目标策略网络为无人车运行进行决策。本发明专利技术提高了无人车决策的可靠性。

【技术实现步骤摘要】

本专利技术涉及无人车,特别是涉及一种无人车自主决策方法、系统、介质及产品


技术介绍

1、随着传感器技术、计算机技术和通信技术的快速发展,无人车的性能均得到显著提升。自主决策是目前无人车系统研究的核心内容之一,自主决策对于扩大无人车应用场景和功能具有重大意义和价值。目前大部分无人车在执行任务时仍然无法脱离操作员的控制和决策。这种工作模式使得无人车的应用仍然极大依赖无线通信技术和远程操作员的决策能力,很容易受到通信条件和操作员决策能力的制约,难以适应高度动态变化的应用场景。

2、强化学习,作为机器学习的重要范式和方法论之一,致力于通过与环境的不断交互试错来学习出色的策略,以最大化长期回报或实现特定目标,体现了机器的“决策”智能。在近些年深度学习的持续发展下,深度强化学习广泛应用于求解动态环境下的连续决策问题,在围棋、游戏、生物医疗和推荐系统等领域取得了一系列应用成果,也为解决复杂环境下无人车自主决策问题提供了新的方向。

3、将深度强化学习算法应用到无人车自主决策训练时,由于算法需要与环境进行上百万次的交互和试错,可能引发意外的状况造成本文档来自技高网...

【技术保护点】

1.一种无人车自主决策方法,其特征在于,包括:

2.根据权利要求1所述的无人车自主决策方法,其特征在于,还包括初始化虚拟数据集;

3.根据权利要求2所述的无人车自主决策方法,其特征在于,更新后的奖励表示为:

4.根据权利要求2所述的无人车自主决策方法,其特征在于,在对目标策略网络的每轮训练过程中,还包括:

5.根据权利要求2所述的无人车自主决策方法,其特征在于,在对目标策略网络的每轮训练过程中,还包括:

6.根据权利要求5所述的无人车自主决策方法,其特征在于,所述价值网络的优化目标表示为:

7.根据权利要求6所述的无...

【技术特征摘要】

1.一种无人车自主决策方法,其特征在于,包括:

2.根据权利要求1所述的无人车自主决策方法,其特征在于,还包括初始化虚拟数据集;

3.根据权利要求2所述的无人车自主决策方法,其特征在于,更新后的奖励表示为:

4.根据权利要求2所述的无人车自主决策方法,其特征在于,在对目标策略网络的每轮训练过程中,还包括:

5.根据权利要求2所述的无人车自主决策方法,其特征在于,在对目标策略网络的每轮训练过程中,还包括:

6.根据权利要求5所述的无人车自主决策方法,其特征在于,所述价值网络的优化目标表示为:

7.根据权...

【专利技术属性】
技术研发人员:魏巍于骐衔李琳王达梁吉业
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1