基于关系三元组的人-物交互图像生成方法技术

技术编号:27062798 阅读:28 留言:0更新日期:2021-01-15 14:43
本发明专利技术公开了一种基于关系三元组的人‑物交互图像生成方法,该方法包括:根据给定动词修改原始图像中的人物姿态,得到人物图像;根据预先获得的人‑物交互信息,将所述人物图像与预先获得的物体图像进行融合,得到人‑物交互图像。该方法根据给定动词调整人的姿态,并根据人‑物关系进行图像融合,最终得到准确可靠的人‑物交互图像,精确的实现了人物图像中人的姿势调整,并能将物体图像放在相对于人的合理位置上,同时能够将来自不同场景的人物图像和物体图像进行有效的融合,最终得到的人‑物交互图像更加清晰、真实。

【技术实现步骤摘要】
基于关系三元组的人-物交互图像生成方法
本专利技术涉及人-物交互图像处理
,更具体的说是涉及一种基于关系三元组的人-物交互图像生成方法。
技术介绍
目前,人-物交互检测问题(HOI-DET)需要模型根据图像预测关系三元组(包括人物、动词和物体),例如(人,扔,飞盘),这是一个广为关注的研究领域,目前已经有了很多深度学习解决方案与应用场景。与之相反,人-物交互图像生成问题(HOI-IG)需要模型根据给定的关系三元组生成人-物交互场景图像。尽管人-物交互检测问题在过去一段时间被广泛研究,但是目前还没有研究针对人-物交互图像生成问题进行。现有的基于GAN的模型可以使用类别标签、文字描述、图像等信息控制图像生成。但是这些模型没有考虑如何生成包含多个物体交互的图像,因此不适用HOI-IG任务;基于文本的图像生成方法只能控制目标物体的外观属性,而且只在针对花鸟等简单任务中表现较好;一些工作中,使用场景图生成图像,但是对于人-物交互这样的复杂情景下,生成图像往往比较模糊;基于布局的图像生成方法同样不适用于HOI-IG,因为在输入的布局图中需要包含物体间的相对位置信息,而在HOI-IG中这些信息都需要通过模型生成。因此,如何提供一种准确可靠的人-物交互图像生成方法是本领域技术人员亟需解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于关系三元组的人-物交互图像生成方法,该方法解决了现有的图像生成方法无法准确可靠的生成人-物交互图像的问题。为了实现上述目的,本专利技术采用如下技术方案:一种基于关系三元组的人-物交互图像生成方法,该方法包括:根据给定动词修改原始图像中的人物姿态,得到人物图像;根据预先获得的人-物交互信息,将所述人物图像与预先获得的物体图像进行融合,得到人-物交互图像。进一步地,根据给定动词修改原始图像中的人物姿态,得到人物图像的过程,具体包括:从原始图像中提取人物外貌信息;根据给定动词,在预先构建的姿态模板库中选择一个目标姿态;将所述目标姿态与所述人物外貌信息融合,合成人物图像。进一步地,从原始图像中提取人物外貌信息的过程具体包括:对原始图像中人的身体关键点进行检测;根据所述身体关键点获取人物姿态。进一步地,根据给定动词在预先构建的姿态模板库中选择一个目标姿态的过程,具体包括:在预先构建的姿态模板库中选择一簇与给定动词一致的姿态;在选出的一簇姿态中随机选择一个姿态作为目标姿态。进一步地,将所述目标姿态与所述人物外貌信息融合,合成人物图像的过程,具体包括:将所述目标姿态与所述人物外貌信息中的人物姿态分别进行编码,得到编码结果;将所述编码结果以及所述原始图像一并输入动词引导的人物图像生成器进行训练,生成人物图像。进一步地,根据预先获得的人-物交互信息,将所述人物图像与预先获得的物体图像进行融合,得到人-物交互图像的过程,具体包括:分别从所述人物图像和所述物体图像中提取各自的视觉特征,得到两组特征图;使用RSTN网络对两组特征图进行处理,将所述物体图像的特征图中含有语义信息的区域线性映射到所述人物图像的特征图中对应区域上;将所述物体图像的特征图与所述人物图像的特征图沿通道方向进行拼接,并将拼接后的图像输入编码器-译码器中进行训练,得到人-物交互图像。进一步地,所述人-物交互图像的表达式为:式中,表示人-物交互图像,表示编码器-译码器,表示人物图像的特征图,To,p(fo)表示物体图像的特征图。进一步地,使用RSTN网络对两组特征图进行处理的过程,具体包括:将物体类别嵌入映射到隐空间,得到n维隐编码e,并将给定动词嵌入映射到n维向量ηt;通过条件增强模块计算n维向量c,得到隐编码[e,c];根据所述隐编码[e,c]预测物体检测框在图像中的位置,并对位置坐标进行线性变换。进一步地,对位置坐标进行线性变换,所应用的公式为:Aθ=Fθ(Fbbox([e,c])),式中,Aθ表示线性变换矩阵,Fbbox(·)和Fθ(·)为两个映射函数,Fbbox(·)的功能是预测物体检测框在图像中的位置,Fθ(·)的功能是根据物体检测框的位置计算线性变换矩阵,[e,c]为隐编码,即用于预测RSTN线性变换矩阵的特征。进一步地,上述基于关系三元组的人-物交互图像生成方法还包括:判断所述人-物交互图像与期望的人-物交互关系是否一致,并优化所述人-物交互图像。经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种基于关系三元组的人-物交互图像生成方法,该方法根据给定动词调整人的姿态,并根据人-物关系进行图像融合,最终得到准确可靠的人-物交互图像,精确的实现了人物图像中人的姿势调整,并能将物体图像放在相对于人的合理位置上,同时能够将来自不同场景的人物图像和物体图像进行有效的融合,最终得到的人-物交互图像更加清晰、真实。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术提供的一种基于关系三元组的人-物交互图像生成方法的实现流程示意图;图2为本专利技术实施例中以可视化的方式对比本专利技术提供的方法与sg2im方法的结果示意图;图3为本专利技术实施例中本专利技术提供的方法与M-StarGAN和M-CycleGAN的对比结果示意图;图4为本专利技术实施例中HOI-IG任务示例以及方法整体结构示意图;图5为本专利技术实施例中第一阶段的实现原理示意图;图6为本专利技术实施例中第二阶段的实现原理示意图;图7为RSTN模块结构示意图;图8为本专利技术实施例中M-sg2im基线结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见附图1,本专利技术实施例公开了一种基于关系三元组的人-物交互图像生成方法,该方法包括:S1:根据给定动词修改原始图像中的人物姿态,得到人物图像;S2:根据预先获得的人-物交互信息,将所述人物图像与预先获得的物体图像进行融合,得到人-物交互图像。本专利技术实施例提供的上述方法预解决HOI-IG问题,也就是基于人物图像、物体图像以及一个动词,生成一张相应的人-物交互图像。需要解决的技术问题有:1.姿态问题:如何根据给定动词,调整人物图像中人的姿势。2.位置问题:由于人和物体的互动关系,需要将物体图像放在相对于人的合理位置上本文档来自技高网...

【技术保护点】
1.一种基于关系三元组的人-物交互图像生成方法,其特征在于,包括:/n根据给定动词修改原始图像中的人物姿态,得到人物图像;/n根据预先获得的人-物交互信息,将所述人物图像与预先获得的物体图像进行融合,得到人-物交互图像。/n

【技术特征摘要】
1.一种基于关系三元组的人-物交互图像生成方法,其特征在于,包括:
根据给定动词修改原始图像中的人物姿态,得到人物图像;
根据预先获得的人-物交互信息,将所述人物图像与预先获得的物体图像进行融合,得到人-物交互图像。


2.根据权利要求1所述的一种基于关系三元组的人-物交互图像生成方法,其特征在于,根据给定动词修改原始图像中的人物姿态,得到人物图像的过程,具体包括:
从原始图像中提取人物外貌信息;
根据给定动词,在预先构建的姿态模板库中选择一个目标姿态;
将所述目标姿态与所述人物外貌信息融合,合成人物图像。


3.根据权利要求2所述的一种基于关系三元组的人-物交互图像生成方法,其特征在于,从原始图像中提取人物外貌信息的过程具体包括:
对原始图像中人的身体关键点进行检测;
根据所述身体关键点获取人物姿态。


4.根据权利要求2所述的一种基于关系三元组的人-物交互图像生成方法,其特征在于,根据给定动词在预先构建的姿态模板库中选择一个目标姿态的过程,具体包括:
在预先构建的姿态模板库中选择一簇与给定动词一致的姿态;
在选出的一簇姿态中随机选择一个姿态作为目标姿态。


5.根据权利要求2所述的一种基于关系三元组的人-物交互图像生成方法,其特征在于,将所述目标姿态与所述人物外貌信息融合,合成人物图像的过程,具体包括:
将所述目标姿态与所述人物外貌信息中的人物姿态分别进行编码,得到编码结果;
将所述编码结果以及所述原始图像一并输入动词引导的人物图像生成器进行训练,生成人物图像。


6.根据权利要求1所述的一种基于关系三元组的人-物交互图像生成方法,其特征在于,根据预先获得的人-物交互信息,将所述人物图像与预先获得的物体图像进行融合,得到人-物交互图像的过程,具体包...

【专利技术属性】
技术研发人员:刘偲高晨李波王渌汀
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1