【技术实现步骤摘要】
本专利技术涉及强化学习,尤其涉及一种强化学习模型的解释方法、装置、设备、介质和产品。
技术介绍
1、深度强化学习模型通过将深度神经网络与强化学习结合,利用深度神经网络强大的近似能力,在很多领域的预测精准度和预测可靠性得到的突破性进展。由于深度神经网络的“黑盒”性质,深度强化学习模型及其得到输出结果很难被相关人员理解,但是在诸如金融期货等领域需要对深度强化学习模型及其输出结果进行解释,以保证深度强化学习模型在相关领域使用的合规性。
2、由于深度强化学习模型核心是最大化执行动作而获得的累积奖励,其并不是在有监督学习和无监督学习中直接一步输出结果并对结果进行解释,因此现有针对有监督学习或者无监督学习的解释方法并不能适用于深度强化学习模型的结果输出解释。如何对深度强化学习模型进行合理的解释,使得用户能够理解其深度强化学习模型的涵义,是现有技术需要解决的技术问题。
技术实现思路
1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供一种强化学习模型的解释方法、装置、设备
...【技术保护点】
1.一种强化学习模型的解释方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述目标解释方式包括基于环境的解释方式的情况下,所述采用所述目标解释方法对所述目标强化学习模型进行解释分析,得到解释结果,包括:
3.根据权利要求1所述的方法,其特征在于,在所述目标解释方式包括基于输入的解释方式的情况下,所述采用所述目标解释方法对所述目标强化学习模型进行解释分析,得到解释结果,包括:
4.根据权利要求1所述的方法,其特征在于,在所述目标解释方式包括基于任务的解释方式的情况下,所述采用所述目标解释方法对所述目标强化学习模型
...【技术特征摘要】
1.一种强化学习模型的解释方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述目标解释方式包括基于环境的解释方式的情况下,所述采用所述目标解释方法对所述目标强化学习模型进行解释分析,得到解释结果,包括:
3.根据权利要求1所述的方法,其特征在于,在所述目标解释方式包括基于输入的解释方式的情况下,所述采用所述目标解释方法对所述目标强化学习模型进行解释分析,得到解释结果,包括:
4.根据权利要求1所述的方法,其特征在于,在所述目标解释方式包括基于任务的解释方式的情况下,所述采用所述目标解释方法对所述目标强化学习模型进行解释分析,得到解释结果,包括:
5.根据权利要求1所述的方法,其特征在于,在所述目标解释方式包括基于模型的解释方式...
【专利技术属性】
技术研发人员:张秉桢,王昱森,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。