图像描述的生成方法、装置和计算机可读存储介质制造方法及图纸

技术编号:25951115 阅读:25 留言:0更新日期:2020-10-17 03:43
本公开涉及一种图像描述的生成方法、装置和计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:根据图像中各个目标、各个目标的目标框以及图像之间的关系,构建图像的语义树;其中,语义树的各个节点分别对应各个目标、各个目标框以及图像;根据语义树中各个节点的关系,节点对应的各个目标的目标特征,以及节点的对应各个目标框的目标框特征,利用树形长短时记忆网络进行特征融合,确定融合后的各个目标框特征和融合后的图像全局特征;目标框特征为各个目标的目标框内图像的特征;根据各个目标特征,融合后的各个目标框特征和融合后的图像全局特征,利用图像描述生成模型,确定图像的描述文本。

【技术实现步骤摘要】
图像描述的生成方法、装置和计算机可读存储介质
本公开涉及计算机
,特别涉及一种图像描述的生成方法、装置和计算机可读存储介质。
技术介绍
图像描述的自动生成就是让机器去理解图像,自动生成对图像的描述文本。目前,采用循环深度神经网络自动生成图像描述是学术界较为常用方法。
技术实现思路
专利技术发现:目前的图像描述的生成方法,得到的描述文本不太准确,例如,缺少对一些目标的描述,或者无法体现目标之间的关系等。本公开所要解决的一个技术问题是:提高图像描述的准确性。根据本公开的一些实施例,提供的一种图像描述的生成方法,包括:根据图像中各个目标、各个目标的目标框以及图像之间的关系,构建图像的语义树;其中,语义树的各个节点分别对应各个目标、各个目标框以及图像;根据语义树中各个节点的关系,节点对应的各个目标的目标特征,以及节点的对应各个目标框的目标框特征,利用树形长短时记忆网络进行特征融合,确定融合后的各个目标框特征和融合后的图像全局特征;目标框特征为各个目标的目标框内图像的特征;根据各个目标特征,融合后的各个目本文档来自技高网...

【技术保护点】
1.一种图像描述的生成方法,包括:/n根据图像中各个目标、各个目标的目标框以及所述图像之间的关系,构建所述图像的语义树;其中,所述语义树的各个节点分别对应各个目标、各个目标框以及所述图像;/n根据所述语义树中各个节点的关系,节点对应的各个目标的目标特征,以及节点的对应各个目标框的目标框特征,利用树形长短时记忆网络进行特征融合,确定融合后的各个目标框特征和融合后的图像全局特征;所述目标框特征为各个目标的目标框内图像的特征;/n根据所述各个目标特征,所述融合后的各个目标框特征和融合后的图像全局特征,利用图像描述生成模型,确定所述图像的描述文本。/n

【技术特征摘要】
1.一种图像描述的生成方法,包括:
根据图像中各个目标、各个目标的目标框以及所述图像之间的关系,构建所述图像的语义树;其中,所述语义树的各个节点分别对应各个目标、各个目标框以及所述图像;
根据所述语义树中各个节点的关系,节点对应的各个目标的目标特征,以及节点的对应各个目标框的目标框特征,利用树形长短时记忆网络进行特征融合,确定融合后的各个目标框特征和融合后的图像全局特征;所述目标框特征为各个目标的目标框内图像的特征;
根据所述各个目标特征,所述融合后的各个目标框特征和融合后的图像全局特征,利用图像描述生成模型,确定所述图像的描述文本。


2.根据权利要求1所述的方法,其中,
所述构建所述图像的语义树包括:
将所述图像对应的节点配置为所述语义树的根节点;
将所述各个目标框对应的节点配置为所述语义树的中间层节点;
将所述各个目标对应的节点配置为所述语义树的叶子节点;
其中,各个目标对应的叶子节点,被配置为该目标对应的目标框的节点的子节点。


3.根据权利要求1所述的方法,其中,
所述将所述各个目标框对应的节点配置为所述语义树的中间层节点包括:
将各个目标框按照面积由大到小的顺序进行排列;
按照排列顺序依次将各个目标对应的节点作为待加入节点;
确定待加入节点对应的目标框与各个已加入节点对应的目标框的重叠区域面积;
存在与所述待加入节点对应的目标框的重叠区域面积超过阈值的已加入节点的情况下,将所述待加入节点配置为该已加入节点的子节点,否则,将所述待加入节点配置为所述根节点的子节点。


4.根据权利要求1所述的方法,其中,
所述利用树形长短时记忆网络进行特征融合包括:
从所述语义树的叶子节点所在一层开始,将属于同一父节点的所有子节点对应的特征和该父节点对应的特征,输入所述树形长短时记忆网络,得到输出的所述父节点对应的融合后的特征,将所述父节点对应的特征更新为融合后的特征;
按照由下到上的顺序,依次更新各层节点对应的特征;
根据更新后各个节点对应的特征,确定融合后的各个目标框特征和融合后的图像全局特征;
其中,所述根节点作为父节点时,将各个目标特征进行平均池化操作,得到第一全局目标特征;将各个目标框特征进行平均池化操作,得到第一全局目标框特征;将所述第一全局目标特征和所述第一全局目标框特征进行加权得到输入的所述根节点对应的特征。


5.根据权利要求1所述的方法,其中,
所述根据所述各个目标特征,所述融合后的各个目标框特征和融合后的图像全局特征,利用图像描述生成模型,确定所述图像的描述文本包括:
针对每个目标特征,将该目标特征与对应的目标框特征、对应的融合后的目标框特征进行合并,得到第一目标局部特征;
将各个目标特征进行平均池化操作,得到第一全局目标特征;
将各个目标框特征进行平均池化操作,得到第一全局目标框特征;
将所述第一全局目标特征,第一全局目标框特征以及融合后的图像全局特征进行合并,得到合并后的第一全局图像表达特征;
将所述第一全局图像表达特征和各个第一目标局部特征输入所述图像描述生成模型,得到输出的所述图像的描述文本。


6.根据权利要求5所述的方法,其中,
所述将所述第一全局图像表达特征和各个第一目标局部特征输入所述图像描述生成模型,得到输出的所述图像的描述文本包括:
将当前时刻的描述词语的特征,所述第一全局图像表达特征和所述图像描述生成模型的第二层长短时记忆网络上一时刻输出的特征进行合并,输入所述图像描述生成模型的第一层长短时记忆网络;
将所述第一层长短时记忆网络输出的特征,各个第一目标局部特征输入注意力机制模块;
将所述注意力机制模块输出的特征与所述第一层长短时记忆网络输出的特征进行合并,输入所述第二层长短时记忆网络,得到输出的下一时刻的描述词语。


7.根据权利要求1所述的方法,其中,
所述根据所述各个目标特征,所述融合后的各个目标框特征和融合后的图像全局特征,利用图像描述生成模型,确定所述图像的描述文本包括:
将所述各个目标特征输入图卷积网络,得到输出的更新后的各个目标特征;将所述融合后的各个目标框特征输入图卷积网络,得到输出的更新后的融合后的各个目标框特征;将各个目标框特征输入图卷积网络,得到输出的更新后的各个目标框特征;
针对每个更新后的目标特征,将该更新后的目标特征与对应的更新后的目标框特征、对应的更新后的融合后的目标框特征进行合并,得到第二目标...

【专利技术属性】
技术研发人员:潘滢炜姚霆梅涛
申请(专利权)人:北京沃东天骏信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1