一种基于目标检测和知识增强的图像描述生成方法技术

技术编号：36426654 阅读：19 留言：0更新日期：2023-01-20 22:36

本发明专利技术公开了基于目标检测和知识增强的图像描述生成方法，将目标检测阶段的区域框和类别标签联合起来，利用先进的人脸识别、商品识别等工具做更深层次的信息发掘，从而得到细粒度的背景知识；在解码阶段引入LBPF注意力机制，增强了词与词之间的联系，从而生成富含背景知识的、连贯的细粒度描述，为融入知识图谱的图像描述生成提供新思路。本发明专利技术与传统引入知识图谱方式相比，可以生成具有细粒度背景知识的描述，且具备细粒度实体间的关系；所描述的目标更加具体、描述的内容更为丰富，可读性更高。更高。更高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于目标检测和知识增强的图像描述生成方法

[0001]本专利技术涉及图像处理
，具体涉及一种基于目标检测和知识增强的图像描述生成方法。

技术介绍

[0002]自然图像生成描述是一项具有挑战性的研究。该任务对于人类来说非常容易，但是对于机器却非常具有挑战性，它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。图像描述解决了在给定图像后自动得到相应的描述性文本的难题,是结合计算机视觉、自然语言处理和机器学习的一个交叉领域,也是一个极具挑战性的人工智能研究问题。由于人类的大部分交流都依赖于自然语言，无论是书面还是口语，因此使计算机能够描述视觉世界将提供大量的应用。例如，对互联网中图像信息检索，儿童的早期教育与视障人士的生活辅助等方面有重要的意义。
[0003]近年来，人们对描述视觉场景的兴趣日益浓厚，过去的image captioning基本是直来直去的，给一副图像，提取图像特征，送进翻译模型，生成一个caption，至于生成的这个caption是关注图像当中哪个物体，是什么风格的caption，是由训练数据的样式来决定的，无法自由的控制。我们希望我们能够控制生成的caption，比如被描述的重点物体与区域，比如我们可以决定生成的caption是描述图像背景还是描述前景中某个物体的，也可以决定其描述的详细程度。
[0004]传统的文本生成任务只依靠输入图像进行生成，缺乏更加丰富的“知识”信息，因此生成的文本往往非常乏味，缺少有意思的内容。在文本生成任务中，“知识”是对输入文...

【技术保护点】

【技术特征摘要】
1.一种基于目标检测和知识增强的图像描述生成方法，其特征在于，包括如下步骤：步骤1：获取已有描述标注的图像描述数据集，对数据集中标题文本中的每个词进行识别，获取固定长度的词向量并组成相对应的词汇表；通过抽取图像感兴趣区域特征向量，识别图像实体区域框及图像实体类别，来获取固定长度的类别特征词向量；对图像进行识别，获取固定长度的图像实体特征向量；检测图像，获得图像中所含的目标区域框和目标标签；步骤2：将目标标签、目标区域框作为分类检测方法的输入，分类检测方法先根据目标标签，使用人脸识别方法及通用商品识别方法将目标标签与目标区域框进行匹配，获得区域内的目标特征标签集；分类检测方法再在匹配完成的基础上根据目标区域框，使用人脸识别方法及通用商品识别方法获得目标具体的信息，即人脸特征标签，物体特征标签；步骤3：将目标标签、人脸特征标签、物体特征标签，通过知识图谱术语检索方法，获得图像中目标的背景信息标签集；步骤4：将目标特征标签集和背景信息标签集分别作为深度学习RNN网络的输入，获取目标特征向量、背景信息特征向量；或将目标特征标签集和背景信息标签集分别作为深度学习RNN网络的输入，得到深度学习RNN网络中产生图像特征，根据图像实体特征向量、背景信息特征向量、深度学习RNN网络中产生图像特征，得到图像的融合特征向量；步骤5：将目标特征向量、背景信息特征向量作为长短期记忆网络的输入量，类别特征词...

【专利技术属性】
技术研发人员：王东升，钟家国，冯越，刘莎，周淼淼，路曼，
申请(专利权)人：江苏科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人