一种基于目标检测和知识增强的图像描述生成方法技术

技术编号:36426654 阅读:19 留言:0更新日期:2023-01-20 22:36
本发明专利技术公开了基于目标检测和知识增强的图像描述生成方法,将目标检测阶段的区域框和类别标签联合起来,利用先进的人脸识别、商品识别等工具做更深层次的信息发掘,从而得到细粒度的背景知识;在解码阶段引入LBPF注意力机制,增强了词与词之间的联系,从而生成富含背景知识的、连贯的细粒度描述,为融入知识图谱的图像描述生成提供新思路。本发明专利技术与传统引入知识图谱方式相比,可以生成具有细粒度背景知识的描述,且具备细粒度实体间的关系;所描述的目标更加具体、描述的内容更为丰富,可读性更高。更高。更高。

【技术实现步骤摘要】
一种基于目标检测和知识增强的图像描述生成方法


[0001]本专利技术涉及图像处理
,具体涉及一种基于目标检测和知识增强的图像描述生成方法。

技术介绍

[0002]自然图像生成描述是一项具有挑战性的研究。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。图像描述解决了在给定图像后自动得到相应的描述性文本的难题,是结合计算机视觉、自然语言处理和机器学习的一个交叉领域,也是一个极具挑战性的人工智能研究问题。由于人类的大部分交流都依赖于自然语言,无论是书面还是口语,因此使计算机能够描述视觉世界将提供大量的应用。例如,对互联网中图像信息检索,儿童的早期教育与视障人士的生活辅助等方面有重要的意义。
[0003]近年来,人们对描述视觉场景的兴趣日益浓厚,过去的image captioning基本是直来直去的,给一副图像,提取图像特征,送进翻译模型,生成一个caption,至于生成的这个caption是关注图像当中哪个物体,是什么风格的caption,是由训练数据的样式来决定的,无法自由的控制。我们希望我们能够控制生成的caption,比如被描述的重点物体与区域,比如我们可以决定生成的caption是描述图像背景还是描述前景中某个物体的,也可以决定其描述的详细程度。
[0004]传统的文本生成任务只依靠输入图像进行生成,缺乏更加丰富的“知识”信息,因此生成的文本往往非常乏味,缺少有意思的内容。在文本生成任务中,“知识”是对输入文本和上下文的一种“补充”,可以由不同方法和信息源获得,包括但不限于关键词,主题,语言学特征,知识库,知识图谱等。
[0005]当下流行的引入知识图谱进行图像描述生成的方法,只能简单的通过目标检测工具得到出一些物体的粗类别标签,同时检测的类别有限。在生成的图像描述方面,语句缺乏连贯性,描述不能完全概括图像表达的含义。比如引入知识图谱的图像描述生成模型CNet

NIC,是将知识图谱实体的Embedding融入模型,未学习到细粒度实体间的关系,只对图像中的粗粒度类别标签进行描述。CNet

NIC没有生成聚焦于图像显著区域的细粒度描述,且生成的描述语言缺乏连贯性。

技术实现思路

[0006]针对现有技术中的不足,本专利技术提供了一种基于目标检测和知识增强的图像描述生成方法,以解决现有技术中图像标题描述语言可读性低、只拥有粗粒度表层信息、缺乏细粒度实体间关系的问题。
[0007]本专利技术提供了一种基于目标检测和知识增强的图像描述生成方法,包括如下步骤:
[0008]步骤1:获取已有描述标注的图像描述数据集,对数据集中标题文本中的每个词进
行识别,获取固定长度的词向量并组成相对应的词汇表;通过抽取图像感兴趣区域特征向量,识别图像实体区域框及图像实体类别,来获取固定长度的类别特征词向量;对图像进行识别,获取固定长度的图像实体特征向量;检测图像,获得图像中所含的目标区域框和目标标签;
[0009]步骤2:将目标标签、目标区域框作为分类检测方法的输入,分类检测方法先根据目标标签,使用人脸识别方法及通用商品识别方法将目标标签与目标区域框进行匹配,获得区域内的目标特征标签集;分类检测方法再在匹配完成的基础上根据目标区域框,使用人脸识别方法及通用商品识别方法获得目标具体的信息,即人脸特征标签,物体特征标签;
[0010]步骤3:将目标标签、人脸特征标签、物体特征标签,通过知识图谱术语检索方法,获得图像中目标的背景信息标签集;
[0011]步骤4:将目标特征标签集和背景信息标签集分别作为深度学习RNN网络的输入,获取目标特征向量、背景信息特征向量;
[0012]或将目标特征标签集和背景信息标签集分别作为深度学习RNN网络的输入,得到深度学习RNN网络中产生图像特征,根据图像实体特征向量、背景信息特征向量、深度学习RNN网络中产生图像特征,得到图像的融合特征向量;
[0013]步骤5:将目标特征向量、背景信息特征向量作为长短期记忆网络的输入量,类别特征词向量作为长短期记忆网络的输出量,实现长短期记忆网络的训练;
[0014]或将融合特征向量作为长短期记忆网络的输入量类别特征词向量作为长短期记忆网络的输出量,实现长短期记忆网络的训练;
[0015]步骤6:用训练好的长短期记忆网络生成图像描述内容。
[0016]进一步地,所述步骤4中得到图像的融合特征向量的具体方法为,依次将目标特征向量、背景信息特征向量、深度学习RNN网络中产生图像特征进行向量拼接,得到图像的融合特征向量。
[0017]进一步地,深度学习RNN网络中产生图像特征为:
[0018]r=F

RCNN(I)
[0019]其中,r是图像实体特征向量,F

RCNN()为faster

rcnn工具函数,I是训练集中的图像。
[0020]进一步地,图像的融合特征向量为:
[0021]V=Concatenate(i,d,r)
[0022]其中,V为图像的融合特征向量,i为图像实体特征向量,d为背景信息特征向量。
[0023]进一步地,图像实体特征向量为:
[0024]i=RNN(r0)
[0025]背景信息特征向量为:
[0026]d=RNN(e0)
[0027]其中,r0为目标特征的标签集,e0为背景信息标签集。
[0028]本专利技术的有益效果:
[0029]1.本专利技术使用全局图像特征、图像中的目标知识特征和描述的文本特征来生成图像描述,并采用基于目标检测和知识增强的方法来增强模型在生成文本时语言的丰富性和多样性。相较于未融入知识图谱的模型,本文所述方法生成的描述更加符合日常表达的形
式,含有图像中事物的背景信息,语义信息更加丰富;在侧重语义的评价指标SPICE、METEOR上分别提升了1%、0.6%;
[0030]2.本专利技术将目标检测阶段的区域框和类别标签联合起来,利用先进的人脸识别、商品识别等工具做更深层次的信息发掘;采用ResNet的模型来提取图像中的全局特征,并编码为特征向量,而对于文本则采用长短期记忆网络来提取文本中的特征;在解码阶段引入LBPF注意力机制,增强了词与词之间的联系,从而生成连贯的、富含细粒度背景知识的描述。
附图说明
[0031]通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制,在附图中:
[0032]图1为本专利技术实施例中图像描述生成方法的总体框架图;
[0033]图2为本专利技术实施例中未融入知识图谱的模型生成效果示例图;
[0034]图3为本专利技术实施例中融入知识图谱的模型生成效果示例图。
具体实施方式
[0035]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于目标检测和知识增强的图像描述生成方法,其特征在于,包括如下步骤:步骤1:获取已有描述标注的图像描述数据集,对数据集中标题文本中的每个词进行识别,获取固定长度的词向量并组成相对应的词汇表;通过抽取图像感兴趣区域特征向量,识别图像实体区域框及图像实体类别,来获取固定长度的类别特征词向量;对图像进行识别,获取固定长度的图像实体特征向量;检测图像,获得图像中所含的目标区域框和目标标签;步骤2:将目标标签、目标区域框作为分类检测方法的输入,分类检测方法先根据目标标签,使用人脸识别方法及通用商品识别方法将目标标签与目标区域框进行匹配,获得区域内的目标特征标签集;分类检测方法再在匹配完成的基础上根据目标区域框,使用人脸识别方法及通用商品识别方法获得目标具体的信息,即人脸特征标签,物体特征标签;步骤3:将目标标签、人脸特征标签、物体特征标签,通过知识图谱术语检索方法,获得图像中目标的背景信息标签集;步骤4:将目标特征标签集和背景信息标签集分别作为深度学习RNN网络的输入,获取目标特征向量、背景信息特征向量;或将目标特征标签集和背景信息标签集分别作为深度学习RNN网络的输入,得到深度学习RNN网络中产生图像特征,根据图像实体特征向量、背景信息特征向量、深度学习RNN网络中产生图像特征,得到图像的融合特征向量;步骤5:将目标特征向量、背景信息特征向量作为长短期记忆网络的输入量,类别特征词...

【专利技术属性】
技术研发人员:王东升钟家国冯越刘莎周淼淼路曼
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1