强化学习框架下场景图骨架构建方法技术

技术编号:38363896 阅读:9 留言:0更新日期:2023-08-05 17:31
本发明专利技术公开了强化学习框架下场景图骨架构建方法,包括:生成基于马尔科夫决策过程的图结构;构建图结构生成环境;构建图卷积策略网络,并对图卷积策略网络进行训练,在关系感知环境下以迭代的方式不断向候选子图中添加节点和边,最终形成图像的场景图骨架。本发明专利技术利用强化学习框架得到稀疏场景图骨架的问题,将场景图骨架的建立过程作为马尔科夫决策过程,利用强化学习得到一个稀疏的场景图骨架,构建了高信息度低复杂度的稀疏场景图骨架,为精确场景图骨架构建提供依据。精确场景图骨架构建提供依据。精确场景图骨架构建提供依据。

【技术实现步骤摘要】
强化学习框架下场景图骨架构建方法


[0001]本专利技术属于强化学习
,尤其涉及强化学习框架下场景图骨架构建方法。

技术介绍

[0002]图像场景图是由节点和边组成的有向图,图中节点分为三种类型,分别为图像中的对象类别、对象属性和对象间的关系,有向边表示节点间的作用方向。通过建立图像场景图,就可以用结构化的方式准确表示图像中的高层语义信息,能够使得计算机直接存储和分析。与图像描述相比,场景图的构建是图像描述方法的升级,具体表现在两个方面:一方面,场景图由许多候选区域组成,每个区域包含了对象类别和属性的高层语义,而不同的对象之间存在相互关系,这种关系是场景图中不可或缺的节点。与图像描述中对象间关系表征欠拟合不同,场景图能够对图像中对象间的关系进行密集表示。另一方面,场景图是结构化数据,其解决了图像描述只能得到半结构化文本的问题。
[0003]目前场景图的构建方法通常是预先建立全连接场景图骨架,然后再进一步的进行对象和关系分类,而骨架的全连接特性决定了其包含了大量冗余信息,特别是在真实复杂的场景中,这些冗余信息不仅会增加整个算法的复杂度,还会影响对象和关系分类的准确度。如何建立高信息度低复杂度的稀疏场景图骨架,是在理论和工程实践上建立高效、精确场景图构建模型的基础。因此高信息度低复杂度的稀疏场景图骨架的构建,是本领域要解决的一个关键科学问题。

技术实现思路

[0004]有鉴于此,本专利技术提出了利用强化学习框架得到稀疏场景图骨架的问题,尝试将场景图骨架的建立过程作为马尔科夫决策过程,利用强化学习得到一个稀疏的场景图骨架,为精确场景图骨架构建提供理论依据。
[0005]本专利技术公开的强化学习框架下场景图骨架构建方法,包括以下步骤:
[0006]生成基于马尔科夫决策过程的图结构;
[0007]构建图结构生成环境;
[0008]构建图卷积策略网络,并对图卷积策略网络进行训练,在关系感知环境下以迭代的方式不断向候选子图中添加节点和边,最终形成图像的场景图骨架。
[0009]进一步的,所述生成基于马尔科夫决策过程的图结构,包括:
[0010]将图结构的生成过程表述为一个通用决策过程M=(S,A,P,R,γ),其中S={s
i
}是由所有可能的中间图和最终图组成的状态集,A={a
i
}是一组动作,描述在每个时刻对当前图结构的修改,P=p(s
t+1
|s
t
,s
t
‑1,

,s0,a
t
)为状态转移分布,表示执行一项行动可能产生结果的概率,其中s0,

s
t
,s
t+1
为第0,

t,t+1时刻的图结构,a
t
为第t时刻的动作,R(s
t
)为所设计的奖励函数,表示图结构达到状态s
t
后的奖励,γ为折扣因子,用于减少未来的回报的对当前动作的影响;
[0011]图结构生成的过程表示为一个迭代轨迹(s0,a0,r0,

,s
n
,a
n
,r
n
),其中s
n
为最终生
成的图结构,a
n
为最终生成的动作,r
n
为最终生成的奖励;
[0012]图结构在每次迭代中会进行节点间边的增加,增加边后图结构的状态转移分布表示为:
[0013][0014]其中,p(a
t
|s
t
,

,s0)为策略网络π
θ
,π
θ
为一种图卷积策略网络,采用马尔可夫决策过程的图结构生成过程,在这个过程中要求状态转移分布满足马尔可夫性质,即p(s
t+1
|s
t
,s
t
‑1,

,s0,a
t
)=p(s
t+1
|s
t
,a
t
);在此性质下,策略网络π
θ
以当前时刻的图结构s
t
为输入来生成下一步的执行动作,即确定哪两个节点应该连接或者确定整个生成过程停止。
[0015]进一步的,所述构建图结构生成环境,包括:
[0016]在基于马尔科夫决策过程的图结构生成策略下,环境通过策略网络给出的动作以迭代的方式逐步建立场景图骨架,在每次迭代步骤中有五个组成部分,即状态表示、策略网络、动作、状态转移分布和奖励;
[0017]所述状态空间将环境的状态s
t
定义为第t次迭代后生成的图结构G
t
,每一次图结构的更新都受强化学习智能体的控制;
[0018]动作空间:首先,定义一个候选子节点集合C={C1,C2,

,C
s
},集合中的节点在图生成的过程中不断被添加到候选子图中;然后,在第t次迭代过程中,定义扩展图为候选子图与候选子节点集合的并集,表示为G
t

C
,其中G
t
为候选子图,C为候选子节点;动作分为三种类型:1)候选子图中在上一次迭代时未存在连接的两个节点进行连接,在此动作后候选子节点集合不发生变化;2)候选子图中的特定节点与候选子节点集合中的节点进行连接,此时将候选子节点中存在连接的节点移除;3)候选子节点集合中特定两个节点进行连接;此时将存在连接的两节点从候选子节点结合中移除;
[0019]状态转移分布:将特定领域的动作规则纳入到状态转移分布中,对于场景图骨架生成任务,环境结合了数据集中对象间的连接规则,此连接规则是在对数据集中所有连接统计后得出,如果在数据集中对象与对象之间没有存在连接,那么这种结果被当作连接规则的一种;
[0020]奖励函数:在场景图骨架生成环境中,强化学习智能体的动作被两类奖励函数指导,分别是中间奖励和最终奖励;其中,所述中间奖励包括特定领域规则奖励和对抗性奖励,如果动作不违反图构建规则,则根据数据集中的关系统计分配少量的正面奖励,否则分配少量的负面奖励;所述最终奖励定义为对抗性奖励和场景图正确率奖励的总和,其中,场景图正确率奖励从场景图分类任务中评价指标的召回率获得,采用生成性对抗网络来定义对抗性奖励V(π
θ
,D
φ
)。
[0021]进一步的,其中,所述生成性对抗网络的构建过程表示为:
[0022][0023]其中,π
θ
为策略网络;p
data
定义了最终图或中间图的数据分布情况,所述最终图用于最终奖励,所述中间图用于中间奖励;D
φ
为判别器网络,x表示输入的图结构,D
φ
(x)∈[0,1]是判别模型的输出结果,用来判断图结构的合理程度;E表示数学期望;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.强化学习框架下场景图骨架构建方法,其特征在于,所述方法包括以下步骤:生成基于马尔科夫决策过程的图结构;构建图结构生成环境;构建图卷积策略网络,并对图卷积策略网络进行训练,在关系感知环境下以迭代的方式不断向候选子图中添加节点和边,最终形成图像的场景图骨架。2.根据权利要求1所述的强化学习框架下场景图骨架构建方法,其特征在于,所述生成基于马尔科夫决策过程的图结构,包括:将图结构的生成过程表述为一个通用决策过程M=(S,A,P,R,γ),其中S={s
i
}是由所有可能的中间图和最终图组成的状态集,A={a
i
}是一组动作,描述在每个时刻对当前图结构的修改,P=p(s
t+1
|s
t
,s
t
‑1,

,s0,a
t
)为状态转移分布,表示执行一项行动可能产生结果的概率,其中s0,

s
t
,s
t+1
为第0,

t,t+1时刻的图结构,a
t
为第t时刻的动作,R(s
t
)为所设计的奖励函数,表示图结构达到状态s
t
后的奖励,γ为折扣因子,用于减少未来的回报的对当前动作的影响;图结构生成的过程表示为一个迭代轨迹(s0,a0,r0,

,s
n
,a
n
,r
n
),其中s
n
为最终生成的图结构,a
n
为最终生成的动作,r
n
为最终生成的奖励;图结构在每次迭代中会进行节点间边的增加,增加边后图结构的状态转移分布表示为:其中,p(a
t
|s
t
,

,s0)为策略网络π
θ
,π
θ
为一种图卷积策略网络,采用马尔可夫决策过程的图结构生成过程,在这个过程中要求状态转移分布满足马尔可夫性质,即p(s
t+1
|s
t
,s
t
‑1,

,s0,a
t
)=p(s
t+1
|s
t
,a
t
);在此性质下,策略网络π
θ
以当前时刻的图结构s
t
为输入来生成下一步的执行动作,即确定哪两个节点应该连接或者确定整个生成过程停止。3.根据权利要求2所述的强化学习框架下场景图骨架构建方法,其特征在于,所述构建图结构生成环境,包括:在基于马尔科夫决策过程的图结构生成策略下,环境通过策略网络给出的动作以迭代的方式逐步建立场景图骨架,在每次迭代步骤中有五个组成部分,即状态表示、策略网络、动作、状态转移分布和奖励;所述状态空间将环境的状态s
t
定义为第t次迭代后生成的图结构G
t
,每一次图结构的更新都受强化学习智能体的控制;动作空间:首先,定义一个候选子节点集合C={C1,C2,

,C
s
},集合中的节点在图生成的过程中不断被添加到候选子图中;然后,在第t次迭代过程中,定义扩展图为候选子图与候选子节点集合的并集,表示为G
t
∪C,其中G
t
为候选子图,C为候选子节点;动作分为三种类型:1)候选子图中在上一次迭代时未存在连接的两个节点进行连接,在此动作后候选子节点集合不发生变化;2)候选子图中的特定节点与候选子节点集合中的节点进行连接,此时将候选子节点中存在连接的节点移除;3)候选子节点集合中特定两个节点进行连接;此时将存在连接的两节点从候选子节点结合中移除;状态转移分布:将特定领域的动作规则纳入到状态转移分布中,对于场景图骨架生成任务,环境结合了数据集中对象间的连接规则,此连接规则是在对数据集中所有连接统计
后得出,如果在数据集...

【专利技术属性】
技术研发人员:李硕豪杨佳鑫张军陈超孙博良雷军于淼淼李虹颖李小飞
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1