一种深度强化学习的可验证鲁棒压缩方法技术

技术编号:40010783 阅读:23 留言:0更新日期:2024-01-16 15:14
本发明专利技术提出了一种深度强化学习的可验证鲁棒压缩方法,方法包括:利用策略蒸馏将预训练网络的知识转移到目标网络;在策略蒸馏的同时,对目标网络采用基于区间边界传播的方法进行鲁棒性训练;使用鲁棒的剪枝技术对训练后的网络进行压缩;对剪枝后的网络进行微调。本发明专利技术使用了可验证的鲁棒训练方法,为网络提供了一个可验证的上界,可以涵盖最坏情况下的扰动,并在剪枝时结合了鲁棒性训练目标,减少了剪枝时的鲁棒性损失。

【技术实现步骤摘要】

本专利技术涉及强化学习领域,特别涉及一种深度强化学习的可验证鲁棒压缩方法


技术介绍

1、近年来,深度强化学习(drl)引起了人们的广泛关注,因为其在处理具有较大的状态和动作空间的决策任务时,能够提供对目标值的良好近似。drl将深度神经网络(dnn)与强化学习相结合,能够自动地从原始输入数据中学习到有效的特征表示,无需手动选择和设计特征,并且能够处理更高维、复杂的输入数据。

2、尽管深度强化学习具有很大的优势,但它对攻击和噪声缺乏鲁棒性。在神经网络的输入中加入精心设计的微小扰动,会导致神经网络以高置信度做出不正确的预测。而对抗性攻击在深度强化学习中也被证明是可能的,观察空间或行动空间的对抗性扰动可以导致drl代理出现不良表现。由于drl代理被部署在许多安全关键应用中,如自动驾驶汽车和机器人等边缘设备,因此开发鲁棒性的训练算法,是至关重要的。

3、同时,边缘设备通常只有有限的计算资源和存储容量,并且受限于电池寿命和能耗等方面的限制,这使得在边缘设备上执行计算密集型任务变得具有挑战性。虽然drl性能强大,但更大的模型也使它难以部署在边缘本文档来自技高网...

【技术保护点】

1.一种深度强化学习的可验证鲁棒压缩方法,其特征在于,所述方法包括:

2.根据权利要求1所述的深度强化学习的可验证鲁棒压缩方法,其特征在于,所述步骤1利用策略蒸馏将预训练网络的知识转移到目标网络,包括:

3.根据权利要2所述的深度强化学习的可验证鲁棒压缩方法,其特征在于,所述步骤2的鲁棒性训练方法包括:

4.根据权利要求3所述的深度强化学习的可验证鲁棒压缩方法,其特征在于,所述步骤3使用鲁棒的剪枝方法对训练后的网络进行压缩,包括:

5.根据权利要求4所述的深度强化学习的可验证鲁棒压缩方法,其特征在于,所述步骤4对剪枝后的网络进行微调,包括:...

【技术特征摘要】

1.一种深度强化学习的可验证鲁棒压缩方法,其特征在于,所述方法包括:

2.根据权利要求1所述的深度强化学习的可验证鲁棒压缩方法,其特征在于,所述步骤1利用策略蒸馏将预训练网络的知识转移到目标网络,包括:

3.根据权利要2所述的深度强化学习的可验证鲁棒压缩方法,其特征在于,所...

【专利技术属性】
技术研发人员:赵庆玲郑木平涂春磊刘四进
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1