基于自我策略恢复的自动驾驶决策模型安全性增强方法和装置制造方法及图纸

技术编号：41723643 阅读：25 留言：0更新日期：2024-06-19 12:48

本发明专利技术公开了一种基于自我策略恢复的自动驾驶决策模型安全性增强方法和装置，利用模拟学习自动驾驶决策模型M<subgt;o</subgt;的目标策略π<subgt;o</subgt;，得到优化后的模型学习模型M<subgt;I</subgt;′<subgt;L</subgt;；利用模型对抗攻击技术对优化后的模型学习模型M<subgt;I</subgt;′<subgt;L</subgt;进行攻击，生成对抗状态集；对对抗状态集进行游离程度计算，得到对抗性训练样本集；随后利用对抗性训练样本集实现对自动驾驶决策模型M<subgt;o</subgt;的对抗性训练，得到重训练模型M<subgt;R</subgt;，实现对自动驾驶决策模型M<subgt;o</subgt;的安全性增强。实现黑盒模型下，模拟学习自动驾驶决策模型M<subgt;o</subgt;的鲁棒性提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能安全领域，尤其涉及一种基于自我策略恢复的自动驾驶决策模型安全性增强方法和装置。

技术介绍

1、随着深度神经网络的发展，强化学习(reinforcement learning，rl)在现实世界中的应用也取得了巨大的成功，如推荐系统、自动驾驶和连续机器人控制。然而深度神经网络普遍存在的脆弱性已经引起了可信人工智能领域的广泛关注。具体来说，这个漏洞暴露了对强化学习智能体的重大威胁。现实世界中的一个例子是，基于强化学习的自动驾驶汽车可能会被恶意放置在道路上的油漆所迷惑，从而导致灾难性的后果。

2、最近的研究表明，鲁棒性-精度平衡的本质是最优标准和最优鲁棒性分类获得的特征的不同。一般来说，可以通过增加训练样本来提高模型的鲁棒性。在此基础上，对抗性训练可以通过数据扩充来增强模型对扰动的鲁邦特征性。然而，即使在无限数据的前提下，标准精度和鲁棒性之间的差距仍然存在，这违背了经典机器学习工具在数据充足情况下学习鲁棒模型的自然期望。与此同时，他也揭示了对抗性训练仍然极易受到其他类型的干扰。许多假设认为，对抗样本的存在时由于...

【技术保护点】

1.一种基于自我策略恢复的自动驾驶决策模型安全性增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于自我策略恢复的自动驾驶决策模型安全性增强方法，其特征在于，所述步骤(1)具体包括以下步骤：

3.根据权利要求2所述的一种基于自我策略恢复的自动驾驶决策模型安全性增强方法，其特征在于，所述步骤(2)具体包括以下子步骤：

4.根据权利要求3所述的一种基于自我策略恢复的自动驾驶决策模型安全性增强方法，其特征在于，所述步骤(3)具体为：

5.根据权利要求4所述的一种基于自我策略恢复的自动驾驶决策模型安全性增强方法，其特征在于，所述步...

【技术特征摘要】

1.一种基于自我策略恢复的自动驾驶决策模型安全性增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于自我策略恢复的自动驾驶决策模型安全性增强方法，其特征在于，所述步骤(1)具体包括以下步骤：

3.根据权利要求2所述的一种基于自我策略恢复的自动驾驶决策模型安全性增强方法，其特征在于，所述步骤(2)具体包括以下子步骤：

4.根据权利要求3所述的一种基于自我策略恢复的自动驾驶决策模型安全性增强方法，其特征在于，所述步骤(3)具体为：

5.根据权利要求4所述的一种基于...

【专利技术属性】
技术研发人员：沈诗婧，陈晋音，苏蒙蒙，金海波，李晓豪，郑海斌，熊海洋，
申请(专利权)人：杭州榕数科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人