【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种用于深度强化学习的多粒度策略解释方法及相关设备。
技术介绍
1、深度强化学习(deep reinforcement learing,drl)结合了深度学习和强化学习,近年来在解决复杂任务方面展现了巨大的潜力。然而,由于深度神经网络本身的非线性和强化学习的特殊性,drl模型的决策过程变得难以理解和解释。如果drl模型的决策过程不透明,用户对系统的信任度就会降低。这种缺乏可解释性的情况还可能导致系统在执行过程中出现不符合预期的行为,从而带来安全隐患或经济损失。因此,提高深度强化学习模型的可解释性,增强其在实际应用中的安全性和可信度,成为当前可解释深度强化学习的主要研究动力和目标。
2、现阶段,可解释深度强化学习的主流方法是事后解释方法。这类方法将模型视为一个黑盒,通过对模型输出的决策结果进行特征归因分析来展示模型的决策依据。事后解释方法按照解释的范围粒度不同,通常分为局部决策解释和全局策略解释。但是,局部决策解释和全局策略解释均存在一定的局限性,从而影响解释的准确性和清晰性。
【技术保护点】
1.一种用于深度强化学习的多粒度策略解释方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述原始图像集合和所述离散动作集合,采用显著性图解释方法,确定与每个原始图像对应的显著性图像,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据预设数量对所述原始图像进行超像素分割,形成多组超像素碎片,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所述原始图像、所述多个扰动图像、所述离散动作集合以及深度学习模型,确定每个硬掩码的权重系数,包括:
5.根据权利要求1所述的方法,其特征在于,
...【技术特征摘要】
1.一种用于深度强化学习的多粒度策略解释方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述原始图像集合和所述离散动作集合,采用显著性图解释方法,确定与每个原始图像对应的显著性图像,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据预设数量对所述原始图像进行超像素分割,形成多组超像素碎片,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所述原始图像、所述多个扰动图像、所述离散动作集合以及深度学习模型,确定每个硬掩码的权重系数,包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述显著性图集合,通过基于聚类的全局策略解释方法,确定与每个离散动作对...
【专利技术属性】
技术研发人员:黄海,王玉娇,左兴权,赵新超,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。