基于分层强化学习的因果发现方法、装置、介质及设备制造方法及图纸

技术编号:35909201 阅读:72 留言:0更新日期:2022-12-10 10:48
本发明专利技术提供了一种基于分层强化学习的因果发现方法、装置、介质及设备,所述方法包括:基于强化学习方法,构建高层和低层策略网络;按照预设步长运行高层策略网络,对变量进行处理,生成无向图,并获取外部奖励;根据当前无向图以及无向图的历史记录,获取好奇心奖励;根据好奇心奖励和外部奖励,获取增强奖励;通过低层策略网络确定高层策略网络生成的无向图的因果方向,生成有向无环图,并获取内部奖励;根据内部奖励和增强奖励,训练低层策略网络和高层策略网络。本发明专利技术提供的基于分层强化学习的因果发现方法能够在条件独立性解空间中搜索到最优的有向无环图,避免由于分解因果发现的两个子任务而导致的错误积累,且避免重复探索相同的状态。索相同的状态。索相同的状态。

【技术实现步骤摘要】
基于分层强化学习的因果发现方法、装置、介质及设备


[0001]本专利技术涉及数据挖掘
,具体而言,涉及一种基于分层强化学习的因果发现方法、装置、介质及设备。

技术介绍

[0002]发现因果关系是揭示复杂系统和科学内部机制的一个基本问题,与进行受控随机实验不同,在许多实际场景中,例如临床医学和心理科学,实验经常会遇到伦理或实验价格昂贵等问题。而通过纯观测数据进行因果发现的方法可以在不干预实验条件的情况下识别因果效应,并且已证明其在因果关系研究中能够发挥作用。
[0003]因果发现通常分为两个步骤:因果结构检测和因果方向识别,其中,因果结构检测的目的是发现一个无向图,作为因果图的骨架;因果方向识别则是在骨架基础上进一步判断每一个无向边在因果图中对应的具体方向。对于基于观测数据的因果结构检测,统计独立性和条件独立性测试是两个重要的概念。在条件独立性测试中,传统方法分为两种:一是当Z是离散的并且P(Z=z)>0时,通过测试每个Z值的边缘独立性X

Y|Z=z来识别因果骨架;二是离散化连续条件变量以实现因果发本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于分层强化学习的因果发现方法,其特征在于,应用于因果发现环境,所述方法包括:基于分层强化学习方法,构建高层策略网络和低层策略网络;获取所述因果发现环境中的变量,按照预设步长运行所述高层策略网络,对所述变量进行处理,生成无向图,并获取基于分数的外部奖励;根据所述高层策略网络生成的当前无向图以及所述无向图的历史记录,获取好奇心奖励;根据所述好奇心奖励和所述基于分数的外部奖励,获取增强奖励;在所述高层策略网络的预设步长内,循环运行所述低层策略网络,通过所述低层策略网络确定所述高层策略网络生成的无向图的因果方向,生成有向无环图,并获取内部奖励;根据所述内部奖励和所述增强奖励,训练所述低层策略网络和所述高层策略网络,获取所述因果发现环境的因果机理。2.根据权利要求1所述的基于分层强化学习的因果发现方法,其特征在于,所述获取所述因果发现环境中的变量,按照预设步长运行所述高层策略网络,对所述变量进行处理,生成无向图,包括:按照预设步长运行所述高层策略网络,获取当前观察状态对应的观察数据;根据所述观察数据,通过共享注意机制获取注意力系数;根据所述注意力系数,获取对撞节点的结果;根据所述对撞节点的结果,获取所述观察数据中不同变量之间的互信息;根据所述互信息,生成所述无向图;按照预设步长再次运行所述高层策略网络,根据前一个所述无向图、前一个所述无向图对应的观察状态以及所述当前观察状态,生成当前所述无向图。3.根据权利要求2所述的基于分层强化学习的因果发现方法,其特征在于,所述获取基于分数的外部奖励,包括:获取所述无向图以及所述无向图对应的观察状态;根据所述无向图以及所述无向图对应的观察状态,获取基于Fisher

Z分数的外部奖励。4.根据权利要求1所述的基于分层强化学习的因果发现方法,其特征在于,所述在所述高层策略网络的预设步长内,循环运行所述低层策略网络,通过所述低层策略网络确定所述高层策略网络生成的无向图的因果方向,生成有向无环图,包括:获取所述高层策略网络生成的无向图以及所述无向图对应的观察状态;在所述高层策略网络的预设步长内,循环运行所述低层策略网络;根据所述无向图以及所述无向图对应的观察状态,确定所述无向图中无向边的因果方向,生成有向无环图。5.根据权利要求4所述的基于分层强化学习的因果发现方法,其特征在于,所述获取内部奖励,包括:通过下述公式计算内在奖励r:
式中,是第i个变量的第k个观察样本,是通过当前学习的结构方程模型或常微分方程模型对的估计,A为对应于有向无环图的二元邻接矩阵,λ1为惩罚参数,且λ1≥0,RSS
i
为Acyc为因果图的无环性,trace为因果权重矩阵的迹。6.根据权利要求1所述的基于分层强化学习的因果发现方法,其特征在于,在获取所述因果发现环境中的变量,按照预设步长运行所述高层策略网络,对所述变量进行处理,生成无向图,并获取基于分数的外部奖励之后,在根据所述高层策略网络生成的当前...

【专利技术属性】
技术研发人员:姜京池沈汝佳关毅刘劼
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1