【技术实现步骤摘要】
强化学习框架下场景图骨架构建方法
[0001]本专利技术属于强化学习
,尤其涉及强化学习框架下场景图骨架构建方法。
技术介绍
[0002]图像场景图是由节点和边组成的有向图,图中节点分为三种类型,分别为图像中的对象类别、对象属性和对象间的关系,有向边表示节点间的作用方向。通过建立图像场景图,就可以用结构化的方式准确表示图像中的高层语义信息,能够使得计算机直接存储和分析。与图像描述相比,场景图的构建是图像描述方法的升级,具体表现在两个方面:一方面,场景图由许多候选区域组成,每个区域包含了对象类别和属性的高层语义,而不同的对象之间存在相互关系,这种关系是场景图中不可或缺的节点。与图像描述中对象间关系表征欠拟合不同,场景图能够对图像中对象间的关系进行密集表示。另一方面,场景图是结构化数据,其解决了图像描述只能得到半结构化文本的问题。
[0003]目前场景图的构建方法通常是预先建立全连接场景图骨架,然后再进一步的进行对象和关系分类,而骨架的全连接特性决定了其包含了大量冗余信息,特别是在真实复杂的场景中,这些冗余信息不仅会增加整个算法的复杂度,还会影响对象和关系分类的准确度。如何建立高信息度低复杂度的稀疏场景图骨架,是在理论和工程实践上建立高效、精确场景图构建模型的基础。因此高信息度低复杂度的稀疏场景图骨架的构建,是本领域要解决的一个关键科学问题。
技术实现思路
[0004]有鉴于此,本专利技术提出了利用强化学习框架得到稀疏场景图骨架的问题,尝试将场景图骨架的建立过程作为马尔科夫决策过程,利用强化 ...
【技术保护点】
【技术特征摘要】
1.强化学习框架下场景图骨架构建方法,其特征在于,所述方法包括以下步骤:生成基于马尔科夫决策过程的图结构;构建图结构生成环境;构建图卷积策略网络,并对图卷积策略网络进行训练,在关系感知环境下以迭代的方式不断向候选子图中添加节点和边,最终形成图像的场景图骨架。2.根据权利要求1所述的强化学习框架下场景图骨架构建方法,其特征在于,所述生成基于马尔科夫决策过程的图结构,包括:将图结构的生成过程表述为一个通用决策过程M=(S,A,P,R,γ),其中S={s
i
}是由所有可能的中间图和最终图组成的状态集,A={a
i
}是一组动作,描述在每个时刻对当前图结构的修改,P=p(s
t+1
|s
t
,s
t
‑1,
…
,s0,a
t
)为状态转移分布,表示执行一项行动可能产生结果的概率,其中s0,
…
s
t
,s
t+1
为第0,
…
t,t+1时刻的图结构,a
t
为第t时刻的动作,R(s
t
)为所设计的奖励函数,表示图结构达到状态s
t
后的奖励,γ为折扣因子,用于减少未来的回报的对当前动作的影响;图结构生成的过程表示为一个迭代轨迹(s0,a0,r0,
…
,s
n
,a
n
,r
n
),其中s
n
为最终生成的图结构,a
n
为最终生成的动作,r
n
为最终生成的奖励;图结构在每次迭代中会进行节点间边的增加,增加边后图结构的状态转移分布表示为:其中,p(a
t
|s
t
,
…
,s0)为策略网络π
θ
,π
θ
为一种图卷积策略网络,采用马尔可夫决策过程的图结构生成过程,在这个过程中要求状态转移分布满足马尔可夫性质,即p(s
t+1
|s
t
,s
t
‑1,
…
,s0,a
t
)=p(s
t+1
|s
t
,a
t
);在此性质下,策略网络π
θ
以当前时刻的图结构s
t
为输入来生成下一步的执行动作,即确定哪两个节点应该连接或者确定整个生成过程停止。3.根据权利要求2所述的强化学习框架下场景图骨架构建方法,其特征在于,所述构建图结构生成环境,包括:在基于马尔科夫决策过程的图结构生成策略下,环境通过策略网络给出的动作以迭代的方式逐步建立场景图骨架,在每次迭代步骤中有五个组成部分,即状态表示、策略网络、动作、状态转移分布和奖励;所述状态空间将环境的状态s
t
定义为第t次迭代后生成的图结构G
t
,每一次图结构的更新都受强化学习智能体的控制;动作空间:首先,定义一个候选子节点集合C={C1,C2,
…
,C
s
},集合中的节点在图生成的过程中不断被添加到候选子图中;然后,在第t次迭代过程中,定义扩展图为候选子图与候选子节点集合的并集,表示为G
t
∪C,其中G
t
为候选子图,C为候选子节点;动作分为三种类型:1)候选子图中在上一次迭代时未存在连接的两个节点进行连接,在此动作后候选子节点集合不发生变化;2)候选子图中的特定节点与候选子节点集合中的节点进行连接,此时将候选子节点中存在连接的节点移除;3)候选子节点集合中特定两个节点进行连接;此时将存在连接的两节点从候选子节点结合中移除;状态转移分布:将特定领域的动作规则纳入到状态转移分布中,对于场景图骨架生成任务,环境结合了数据集中对象间的连接规则,此连接规则是在对数据集中所有连接统计
后得出,如果在数据集...
【专利技术属性】
技术研发人员:李硕豪,杨佳鑫,张军,陈超,孙博良,雷军,于淼淼,李虹颖,李小飞,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。