强化学习框架下场景图骨架构建方法技术

技术编号：38363896 阅读：9 留言：0更新日期：2023-08-05 17:31

本发明专利技术公开了强化学习框架下场景图骨架构建方法，包括：生成基于马尔科夫决策过程的图结构；构建图结构生成环境；构建图卷积策略网络，并对图卷积策略网络进行训练，在关系感知环境下以迭代的方式不断向候选子图中添加节点和边，最终形成图像的场景图骨架。本发明专利技术利用强化学习框架得到稀疏场景图骨架的问题，将场景图骨架的建立过程作为马尔科夫决策过程，利用强化学习得到一个稀疏的场景图骨架，构建了高信息度低复杂度的稀疏场景图骨架，为精确场景图骨架构建提供依据。精确场景图骨架构建提供依据。精确场景图骨架构建提供依据。

全部详细技术资料下载

【技术实现步骤摘要】
强化学习框架下场景图骨架构建方法

[0001]本专利技术属于强化学习
，尤其涉及强化学习框架下场景图骨架构建方法。

技术介绍

[0002]图像场景图是由节点和边组成的有向图，图中节点分为三种类型，分别为图像中的对象类别、对象属性和对象间的关系，有向边表示节点间的作用方向。通过建立图像场景图，就可以用结构化的方式准确表示图像中的高层语义信息，能够使得计算机直接存储和分析。与图像描述相比，场景图的构建是图像描述方法的升级，具体表现在两个方面：一方面，场景图由许多候选区域组成，每个区域包含了对象类别和属性的高层语义，而不同的对象之间存在相互关系，这种关系是场景图中不可或缺的节点。与图像描述中对象间关系表征欠拟合不同，场景图能够对图像中对象间的关系进行密集表示。另一方面，场景图是结构化数据，其解决了图像描述只能得到半结构化文本的问题。
[0003]目前场景图的构建方法通常是预先建立全连接场景图骨架，然后再进一步的进行对象和关系分类，而骨架的全连接特性决定了其包含了大量冗余信息，特别是在真实复杂的场景中，这些冗余信息不仅会增加整个算法的复杂度，还会影响对象和关系分类的准确度。如何建立高信息度低复杂度的稀疏场景图骨架，是在理论和工程实践上建立高效、精确场景图构建模型的基础。因此高信息度低复杂度的稀疏场景图骨架的构建，是本领域要解决的一个关键科学问题。

技术实现思路

[0004]有鉴于此，本专利技术提出了利用强化学习框架得到稀疏场景图骨架的问题，尝试将场景图骨架的建立过程作为马尔科夫决策过程，利用强化...

【技术保护点】

【技术特征摘要】
1.强化学习框架下场景图骨架构建方法，其特征在于，所述方法包括以下步骤：生成基于马尔科夫决策过程的图结构；构建图结构生成环境；构建图卷积策略网络，并对图卷积策略网络进行训练，在关系感知环境下以迭代的方式不断向候选子图中添加节点和边，最终形成图像的场景图骨架。2.根据权利要求1所述的强化学习框架下场景图骨架构建方法，其特征在于，所述生成基于马尔科夫决策过程的图结构，包括：将图结构的生成过程表述为一个通用决策过程M＝(S,A,P,R,γ)，其中S＝{s
i
}是由所有可能的中间图和最终图组成的状态集，A＝{a
i
}是一组动作，描述在每个时刻对当前图结构的修改，P＝p(s
t+1
|s
t
,s
t
‑1,
…
,s0,a
t
)为状态转移分布，表示执行一项行动可能产生结果的概率，其中s0,
…
s
t
,s
t+1
为第0，
…
t，t+1时刻的图结构，a
t
为第t时刻的动作，R(s
t
)为所设计的奖励函数，表示图结构达到状态s
t
后的奖励，γ为折扣因子，用于减少未来的回报的对当前动作的影响；图结构生成的过程表示为一个迭代轨迹(s0,a0,r0,
…
,s
n
,a
n
,r
n
)，其中s
n
为最终生成的图结构，a
n
为最终生成的动作，r
n
为最终生成的奖励；图结构在每次迭代中会进行节点间边的增加，增加边后图结构的状态转移分布表示为：其中，p(a
t
|s
t
,
…
,s0)为策略网络π
θ
，π
θ
为一种图卷积策略网络，采用马尔可夫决策过程的图结构生成过程，在这个过程中要求状态转移分布满足马尔可夫性质，即p(s
t+1
|s
t
,s
t
‑1,
…
,s0,a
t
)＝p(s
t+1
|s
t
,a
t
)；在此性质下，策略网络π
θ
以当前时刻的图结构s
t
为输入来生成下一步的执行动作，即确定哪两个节点应该连接或者确定整个生成过程停止。3.根据权利要求2所述的强化学习框架下场景图骨架构建方法，其特征在于，所述构建图结构生成环境，包括：在基于马尔科夫决策过程的图结构生成策略下，环境通过策略网络给出的动作以迭代的方式逐步建立场景图骨架，在每次迭代步骤中有五个组成部分，即状态表示、策略网络、动作、状态转移分布和奖励；所述状态空间将环境的状态s
t
定义为第t次迭代后生成的图结构G
t
，每一次图结构的更新都受强化学习智能体的控制；动作空间：首先，定义一个候选子节点集合C＝{C1,C2,
…
,C
s
}，集合中的节点在图生成的过程中不断被添加到候选子图中；然后，在第t次迭代过程中，定义扩展图为候选子图与候选子节点集合的并集，表示为G
t
∪C，其中G
t
为候选子图，C为候选子节点；动作分为三种类型：1)候选子图中在上一次迭代时未存在连接的两个节点进行连接，在此动作后候选子节点集合不发生变化；2)候选子图中的特定节点与候选子节点集合中的节点进行连接，此时将候选子节点中存在连接的节点移除；3)候选子节点集合中特定两个节点进行连接；此时将存在连接的两节点从候选子节点结合中移除；状态转移分布：将特定领域的动作规则纳入到状态转移分布中，对于场景图骨架生成任务，环境结合了数据集中对象间的连接规则，此连接规则是在对数据集中所有连接统计
后得出，如果在数据集...

【专利技术属性】
技术研发人员：李硕豪，杨佳鑫，张军，陈超，孙博良，雷军，于淼淼，李虹颖，李小飞，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人