【技术实现步骤摘要】
信任域引导裁剪的策略优化方法、系统、存储介质及应用
本专利技术属于数据信任域策略优化
,尤其涉及一种信任域引导裁剪的策略优化方法、系统、存储介质及应用。
技术介绍
目前,数据生成过程的因果结构对于许多研究问题至关重要。确定自然现象背后的因果机制在许多科学领域仍摆在首要位置,例如在了解病毒作用机制后,可以更有效地开发新药或者控制病毒传播。最近研究还表明,因果推理对于经典的机器学习任务(例如在具有因果关系的函数估计情况下,了解因果及其影响对半监督学习和迁移学习具有决定性意义。发现因果关系的最有效方法是通过受控随机实验,但是受控随机实验在某些科学领域几乎不可能进行模拟(比如自然灾害影响或者政治影响研究)。因此因果发现方法的最新研究集中于从被动可观察的数据推断因果关系。基于分数的方法将结构学习的问题表述为:在组合性非环约束的基础上,优化根据邻接矩阵和观测数据计算得出的得分函数。然而这个问题的搜索空间随着图节点数量增加是呈指数增加的,这对基于分数的优化方法提出了严峻的挑战。对此,提出了一种强化学习的方法,以贝叶斯信息准则(BIC ...
【技术保护点】
1.一种信任域引导裁剪的策略优化方法,其特征在于,所述信任域引导裁剪的策略优化方法包括:/n缓冲
【技术特征摘要】
1.一种信任域引导裁剪的策略优化方法,其特征在于,所述信任域引导裁剪的策略优化方法包括:
缓冲到R中;
从R中采样
计算批概率比矩阵
计算批KL距离矩阵{DKL(b,πθ|At,St)}N;
运用批KL距离矩阵根据裁剪批概率比矩阵:
以αθ,αω的学习率,优化θ和ω以最小化Lθ,Lω...;
其中,经验回放器R;批大小N;移动平均更新率αm;Actor和Critic学习率αθ,αω;熵值权重λe;裁剪比例∈;信任域区间δ;
2.如权利要求1所述的信任域引导裁剪的策略优化方法,其特征在于,所述信任域引导裁剪的策略优化方法的更新策略的方向为:
其中,b(·|St)表示旧策略,πθ(At|St)中的每个元素表示独立子动作的概率,其动作空间为{0,1},给定At和St下,新旧策略之间的KL距离计算为:
使用PPO计算联合概率比时,要计算n*(n-1)个比例的累乘,对于其中的每个比率,两个约束之间的小偏差将随着比例的增多而成倍增大;
将基于似然比的触发条件替换为基于信任域的触发条件,策略不在信任域内时,似然比例将会被裁剪:
3.如权利要求1所述的信任域引导裁剪的策略优化方法,其特征在于,所述信任域引导裁剪的策略优化方法的因果模型定义fi为线性、Ni为高斯噪音的线性高斯模型;fi为线性、Ni为非高斯噪音的LiNGAM模型;fi为二次函数、Ni为非高斯噪音的非线性模型;fi为高斯过程采样的函数、Ni为正态分布噪音的非线性模型;根据因果模型,使用固定的随机DAG生成所有变量,并将数据集采样为
4.如权利要求1所述的信任域引导裁剪的策略优化方法,其特征在于,所述信任域引导裁剪的策略优化方法的状态、策略和动作包括:代表状态,其中n代表节点数量,m代表每个节点中采样得到的特征数量,在t时刻,在训练过程中,通过从整个观察到的数据集X中随机抽取样本来构造St;
策略由θ参数化,定义为理解为邻接概率矩阵,其元素-子策略代表存在从节点i到j的边的概率,在图生成的最后一步中,策略中的所有对角线元素都被设为零,即
A∈{0,1}n×n表示动作,为图g对应的二进制邻接矩阵,时间t时,其子动作表示存在在t时刻从节点i到节点j的边,每个子动作是根据值为的伯努利分布采样生成的;每个子动作是独立采样的,在状态St下运用策略采样得到At的概率为:
5.如权利要求1所述的信任域引导裁剪的策略优化方法,其特征在于,所述信任域引导裁剪的策略优化方法的奖励是包含得分函数和无环约束项的奖励信号,采用BIC作为得分,给定整个观察数据X,邻接矩阵At的BIC得分为:
其中,表示由μ参数化的最大似然估计器,dμ代表μ的维数,如果使用线性模型对每个因果关系进行建模,则BIC得分计算为:
表示估算值,ne代表边数,公式中第二项用来惩罚冗余边数,第一项等效于GraN-DAG采用的对数似然目标,节点数据的附加噪声方差相等,得到另一种形式的BIC得分:
将有环性惩罚定义为:
如果At是有向图,则CL(At)=0;增加了值相对较大的指标惩罚:
通过将权重λ1和λ2赋予两项有环性惩罚,将三项惩罚值结合,总的奖励信号定义为:
R=-[BIC(At)+λ1CL(At)+λ2Ind(At)]。
6.如权利要求1所述的信任域引导裁剪的策略优化方法,其特征在于,所述信任域引导裁剪的策略优化方法的强化学习过程,根据对因果推断强化学习的建模,将优化目标定义为:
通过最大化有向图空间上的奖赏值,在以下条件下获得得分最高的DAG:
其中,上界BICu可以通过随机的DAG计算得到,λ1发置了一个相对较小的值。
7.如权利要求1所述的信任域引导裁剪的策略优化方法,其特征在于,所述信任域引导裁剪的策略优化方法的图生成神经网络架构编码器和解码器一起形成由θ参数化的actorθ模块,其输入是观测数据St,输出是图邻接矩阵At,编码器应理解变量之间的内在关系,并输出最能描述因果关系的编码enci,而解码器应使用该编码来解释变量之间的相互关;
(1)缩放点积图注意力编码器,首先运用图注意力网络GAT作为编码器,将GAT中的加...
【专利技术属性】
技术研发人员:刘世旋,吴克宇,冯旸赫,刘忠,黄金才,程光权,陈超,成清,胡星辰,杜航,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。