特定区域的图像描述生成方法、装置、设备及存储介质制造方法及图纸

技术编号：34768474 阅读：12 留言：0更新日期：2022-08-31 19:24

本申请涉及人工智能技术，提供了一种特定区域的图像描述生成方法、装置、设备及存储介质，方法包括：获取全局图像；基于预训练的第一特征提取网络模型对全局图像进行全局特征提取，得到全局图像特征图；基于预训练的第二特征提取网络模型对全局图像特征图进行局部特征提取，得到局部图像特征图；分别对全局图像特征图和局部图像特征图进行维度统一提取，得到全局图像特征向量和局部图像特征向量；对全局图像特征向量和局部图像特征向量进行融合，得到最终图像特征向量；基于预训练文本生成网络模型对最终图像特征向量进行文本生成，得到特定区域描述文本，通过上述技术方案能够提高特定区域的图像文本描述的准确率。特定区域的图像文本描述的准确率。特定区域的图像文本描述的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
特定区域的图像描述生成方法、装置、设备及存储介质

[0001]本申请实施例涉及但不限于图像处理
，尤其涉及一种特定区域的图像描述生成方法、装置、设备及存储介质。

技术介绍

[0002]图像描述生成是图像处理中具有重要应用价值的一个领域；对于图像描述生成，当前多为针对整幅图像进行描述文本生成或者在特定区域下的文本生成；其中，基于编码
‑
解码模型能够较好地抽取图像全局特征但是对于局部特征的提取就会有所遗漏，基于目标检测模型可以提取目标所在局部区域特征，但是欠缺局部特征之间的联系，进而使得特定局部区域的图像文本描述不够正确。

技术实现思路

[0003]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0004]为了解决上述
技术介绍
中提到的问题，本申请实施例提供了一种特定区域的图像描述生成方法、装置、设备及存储介质，能够提高特定区域的图像文本描述的准确率。
[0005]第一方面，本申请实施例提供了一种特定区域的图像描述生成方法，包括：
[0006]获取全局图像；
[0007]基于预训练的第一特征提取网络模型对所述全局图像进行全局特征提取，得到全局图像特征图；
[0008]基于预训练的第二特征提取网络模型对所述全局图像特征图进行局部特征提取，得到局部图像特征图；
[0009]分别对所述全局图像特征图和所述局部图像特征图进行维度统一提取，得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征图的局部图像...

【技术保护点】

【技术特征摘要】
1.一种特定区域的图像描述生成方法，其特征在于，所述方法包括：获取全局图像；基于预训练的第一特征提取网络模型对所述全局图像进行全局特征提取，得到全局图像特征图；基于预训练的第二特征提取网络模型对所述全局图像特征图进行局部特征提取，得到局部图像特征图；分别对所述全局图像特征图和所述局部图像特征图进行维度统一提取，得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征图的局部图像特征向量；对所述全局图像特征向量和所述局部图像特征向量进行融合，得到最终图像特征向量；基于预训练的文本生成网络模型对所述最终图像特征向量进行文本生成，得到特定区域描述文本。2.根据权利要求1所述的特定区域的图像描述生成方法，其特征在于，所述基于预训练的第二特征提取网络模型对所述全局图像特征图进行局部特征提取，得到局部图像特征图，包括：基于预训练的第二特征提取网络模型对所述全局图像特征图进行选择性搜索，得到至少一个候选框图；对各个所述候选框图分别进行第一特征提取，得到各个所述候选框图对应的候选特征图；基于所述候选特征图对所述候选框图进行回归调整，得到精确候选框图；基于预训练的第二特征提取网络模型对所述精确候选框图进行第二特征提取，得到所述局部图像特征图。3.根据权利要求1所述的特定区域的图像描述生成方法，其特征在于，所述分别对所述全局图像特征图和所述局部图像特征图进行维度统一提取，得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征的局部图像特征向量，包括：对所述全局图像特征图和所述局部图像特征图进行映射处理，得到映射特征图谱；基于所述映射特征图谱，分别对所述全局图像特征图和所述局部图像特征图进行最大池化操作得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征的局部图像特征向量。4.根据权利要求1所述的特定区域的图像描述生成方法，其特征在于，所述文本生成网络模型包括注意力网络模型和长短期记忆网络模型，所述基于预训练的文本生成网络模型对所述最终图像特征向量进行文本生成，得到特定区域描述文本，包括：基于所述注意力网络模型对所述全局图像特征向量和所述局部图像特征向量进行计算，得到当前文本状态信息；以及基于所述长短期记忆网络模型对所述最终图像特征向量进行计算，得到初始文本信息；基于所述长短期记忆网络模型对所述当前文本状态信息和所述初始文本信息进行计算，得到当前文本信息；基于所述长短期记忆网络模型对所述当前文本信息...

【专利技术属性】
技术研发人员：舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人