一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法、装置及产品制造方法及图纸

技术编号：41400034 阅读：5 留言：0更新日期：2024-05-20 19:24

本发明专利技术公开一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法、装置及产品，涉及强化学习领域。首先选取训练样本，构建网络模型并初始化；选取不同数据增强方法对同一样本进行数据增强后输入至对比学习网络，根据输出的表征向量计算对比学习网络损失；将表征向量输入至行为模型和扰动模型中计算行为模型损失和扰动模型损失；根据对比学习网络、行为模型和扰动模型计算策略网络损失和价值网络损失；基于对比学习网络损失、行为模型损失和扰动模型损失、策略网络损失和价值网络损失，采用随机低度下降更新网络模型；根据更新后的网络模型对无人车的动作作出决策，以躲避障碍物，完成目标搜索。本发明专利技术能够显著提升无人车的避障搜索性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及强化学习领域，特别是涉及一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法、装置及产品。

技术介绍

1、近年来随着计算机视觉领域、自动控制技术和深度学习领域的巨大发展，无人机及无人车技术也随之进步，无人机被广泛应用于对地面物体的检测与定位，无人车由于其便利性和相比无人机更大的运载能力，在运输物资和现场作业方面被大量使用，可有效完成探索未知地形、野外搜索和救援等工作。

2、目前，无人车完成避障搜索任务时，在准确性和安全性方面还有着很大进步空间，例如，在复杂任务场景下，尤其是障碍物较多、障碍物大小发生变化或者外部环境状态陌生时，无人车难以稳定地作出准确的决策，影响其完成避障搜索任务的性能；例如，在面对高维感知输入，如图像、激光雷达等数据时，大量数据的收集会给无人车系统的数据存储和计算性能带来巨大的压力，影响其使用性能。

3、因此，亟需一种无人车避障搜索策略优化方法，以提升无人车的避障搜索性能。

技术实现思路

1、本专利技术的目的是提供一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法、装置及产品，可提高无人车避障搜索的性能。

2、为实现上述目的，本专利技术提供了如下方案：

3、一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法，所述方法包括：

4、从离线数据集中随机抽取部分数据作为训练样本；所述训练样本包括多条状态转移样本；所述离线数据集包括已训练好的无人车与环境交互所产生的数据和/或来自于专家操控无

5、构建网络模型，并对所述网络模型进行初始化；所述网络模型包括策略网络、价值网络、目标价值网络、对比学习网络、行为模型以及扰动模型；

6、选取不同的数据增强方法对同一状态转移样本进行数据增强，分别得到第一状态转移样本和第二状态转移样本；

7、将所述第一状态转移样本和所述第二状态转移样本分别输入至所述对比学习网络，得到第一低维表征向量和第二低维表征向量，并根据所述第一低维表征向量和所述第二低维表征向量计算对比学习网络损失；

8、将所述第一低维表征向量或第二低维表征向量分别输入至所述行为模型和所述扰动模型中，计算行为模型损失和扰动模型损失；

9、根据所述对比学习网络、所述行为模型和所述扰动模型计算策略网络损失和价值网络损失；

10、基于所述对比学习网络损失、所述行为模型损失和所述扰动模型损失、所述策略网络损失和所述价值网络损失，采用随机低度下降更新所述网络模型；

11、根据更新后的网络模型对无人车的动作作出决策，以躲避环境中的障碍物，完成目标搜索；网络模型的输入为无人车当前状态，网络模型的输出为无人车下一时刻的动作。

12、可选地，所述根据所述第一低维表征向量和所述第二低维表征向量计算对比学习网络损失，具体包括：

13、根据所述第一低维表征向量得到第一映射向量，根据所述第二低维表征向量得到第二映射向量；

14、获取对比学习网络的参数矩阵，并根据所述第一映射向量、所述第二映射向量以及所述对比学习网络的参数矩阵计算所述对比学习网络损失。

15、可选地，在根据所述第一低维表征向量和所述第二低维表征向量计算对比学习网络损失之后还包括：

16、将所述第一低维表征向量和所述第二低维表征向量分别输入至所述策略网络，得到第一动作和第二动作；

17、根据所述第一动作和所述第二动作计算策略网络的额外损失。

18、可选地，将所述第一低维表征向量或第二低维表征向量分别输入至所述行为模型和所述扰动模型中，计算行为模型损失和扰动模型损失，具体包括：

19、将所述第一低维表征向量或所述第二低维表征向量输入至所述行为模型中，得到行为模型输出动作；

20、根据所述行为模型输出动作与状态转移样本中的动作数据计算所述行为模型损失；

21、将所述第一低维表征向量或所述第二低维表征向量输入至所述扰动模型中，输出扰动噪声；

22、根据所述扰动噪声和给定的任意动作数据得到扰动后的动作；

23、根据所述扰动后的动作和所述行为模型输出动作，计算所述扰动模型损失。

24、可选地，在将所述第一低维表征向量或第二低维表征向量分别输入至所述行为模型和所述扰动模型中，计算行为模型损失和扰动模型损失之后，还包括：

25、将所述第一低维表征向量或第二表征向量分别输入至所述策略网络，得到第一动作或第二动作；

26、基于所述行为模型输出动作与所述第一动作，或者基于所述行为模型输出动作与所述第二动作，计算策略优化正则项。

27、可选地，所述根据所述对比学习网络、所述行为模型和所述扰动模型计算策略网络损失和价值网络损失，具体包括：

28、根据所述扰动模型、所述价值网络、所述策略网络的额外损失以及所述策略优化正则项，计算所述策略网络损失；

29、根据所述目标价值网络、所述扰动模型以及所述价值网络，计算所述价值网络损失。

30、可选地，计算所述对比学习损失的公式为：

31、

32、其中，表示对比学习损失；δq和ξq表示对比学习网络的网络参数；w表示参数矩阵；k表示样本集合；ki表示样本集合中的所有负样本，i表示第i个样本；pq表示将第一映射向量；pk表示第二映射向量；t表示矩阵的转置。

33、可选地，计算所述策略网络损失的公式为：

34、

35、其中，jπ(θ)表示所学策略网络的最终损失函数；表示价值网络的输出结果；α为控制额外策略损失的权重的超参数；β为控制策略优化正则项的权重的超参数；表示期望；表示离线数据集；表示第一低维表征向量，表示将第一低维表征向量输入至策略网络输出的第一动作；表示扰动模型输出的扰动噪声；ψ表示扰动噪声的范围值；表示策略网络的额外损失；gθ(·)表示策略优化正则项；

36、计算所述价值网络损失的公式为：

37、

38、其中，jq(φ)表示价值网络损失；γ为衰减因子；s表示状态；s′表示下一状态；r表示奖励；表示下一状态的低维表征向量；表示目标价值网络的输出；a表示动作。

39、一种计算机装置，包括：存储器、处理器以存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机程序以实现上述任一项所述基于表征聚类和行为扰动的无人车避障搜索策略优化方法的步骤。

40、一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一项所述基于表征聚类和行为扰动的无人车避障搜索策略优化方法的步骤。

41、根据本专利技术提供的具体实施例，本专利技术公开了以下技术效果：本专利技术提供了一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法、装置及产品。通过选取训练样本并构建网络模型，并对网络模型初始化；选取不同数据增强方法对同一样本进行数本文档来自技高网...

【技术保护点】

1.一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法，其特征在于，根据所述第一低维表征向量和所述第二低维表征向量计算对比学习网络损失，具体包括：

3.根据权利要求1所述的一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法，其特征在于，在根据所述第一低维表征向量和所述第二低维表征向量计算对比学习网络损失之后还包括：

4.根据权利要求1所述的一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法，其特征在于，将所述第一低维表征向量或第二低维表征向量分别输入至所述行为模型和所述扰动模型中，计算行为模型损失和扰动模型损失，具体包括：

5.根据权利要求4所述的一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法，其特征在于，在将所述第一低维表征向量或第二低维表征向量分别输入至所述行为模型和所述扰动模型中，计算行为模型损失和扰动模型损失之后，还包括：

6.根据权利要求5所述的一种基于表征聚类和行为扰动的无人车避障搜

7.根据权利要求2所述的一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法，其特征在于，计算所述对比学习损失的公式为：

8.根据权利要求6所述的一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法，其特征在于，计算所述策略网络损失的公式为：

9.一种计算机装置，包括：存储器、处理器以存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-8中任一项所述基于表征聚类和行为扰动的无人车避障搜索策略优化方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-8中任一项所述基于表征聚类和行为扰动的无人车避障搜索策略优化方法的步骤。

...

【技术特征摘要】

1.一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法，其特征在于，所述方法包括：

5.根据权利要求4所述的一种基于表征聚类和行为扰动的无人车避障搜索策略优化方法，其特征在于，在将所述第一低维表征向量或第二低维表征向量分别输入至所述行为模型和所述扰动模型中，计算行为模型损失和扰动模型损...

【专利技术属性】
技术研发人员：骆祥峰，王涛，王欣芝，谢少荣，李玉峰，李洋，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人