特定区域的图像描述生成方法、装置、设备及存储介质制造方法及图纸

技术编号:34768474 阅读:12 留言:0更新日期:2022-08-31 19:24
本申请涉及人工智能技术,提供了一种特定区域的图像描述生成方法、装置、设备及存储介质,方法包括:获取全局图像;基于预训练的第一特征提取网络模型对全局图像进行全局特征提取,得到全局图像特征图;基于预训练的第二特征提取网络模型对全局图像特征图进行局部特征提取,得到局部图像特征图;分别对全局图像特征图和局部图像特征图进行维度统一提取,得到全局图像特征向量和局部图像特征向量;对全局图像特征向量和局部图像特征向量进行融合,得到最终图像特征向量;基于预训练文本生成网络模型对最终图像特征向量进行文本生成,得到特定区域描述文本,通过上述技术方案能够提高特定区域的图像文本描述的准确率。特定区域的图像文本描述的准确率。特定区域的图像文本描述的准确率。

【技术实现步骤摘要】
特定区域的图像描述生成方法、装置、设备及存储介质


[0001]本申请实施例涉及但不限于图像处理
,尤其涉及一种特定区域的图像描述生成方法、装置、设备及存储介质。

技术介绍

[0002]图像描述生成是图像处理中具有重要应用价值的一个领域;对于图像描述生成,当前多为针对整幅图像进行描述文本生成或者在特定区域下的文本生成;其中,基于编码

解码模型能够较好地抽取图像全局特征但是对于局部特征的提取就会有所遗漏,基于目标检测模型可以提取目标所在局部区域特征,但是欠缺局部特征之间的联系,进而使得特定局部区域的图像文本描述不够正确。

技术实现思路

[0003]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0004]为了解决上述
技术介绍
中提到的问题,本申请实施例提供了一种特定区域的图像描述生成方法、装置、设备及存储介质,能够提高特定区域的图像文本描述的准确率。
[0005]第一方面,本申请实施例提供了一种特定区域的图像描述生成方法,包括:
[0006]获取全局图像;
[0007]基于预训练的第一特征提取网络模型对所述全局图像进行全局特征提取,得到全局图像特征图;
[0008]基于预训练的第二特征提取网络模型对所述全局图像特征图进行局部特征提取,得到局部图像特征图;
[0009]分别对所述全局图像特征图和所述局部图像特征图进行维度统一提取,得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征图的局部图像特征向量;
[0010]对所述全局图像特征向量和所述局部图像特征向量进行融合,得到最终图像特征向量;
[0011]基于预训练的文本生成网络模型对所述最终图像特征向量进行文本生成,得到特定区域描述文本。
[0012]根据本申请提供的实施例的特定区域的图像描述生成方法,至少具有如下有益效果:首先获取全局图像;接着基于预训练的第一特征提取网络模型对获取到的全局图像进行全局特征提取处理,进而得到全局图像特征图;接着基于预训练的第二特征提取网络模型对全局图像特征图进行局部特征提取,进而得到局部图像特征图;接着分别对上述得到的全局图像特征图和局部图像特征图进行维度统一提取处理,进而分别得到全局图像特征向量和局部图像特征向量;接着对全局图像特征向量和局部图像特征向量进行融合处理,得到最终图像特征向量;最后将最终图像特征向量输入至预训练的文本生成网络模型进行
文本生成,从而得到特定区域描述文本。本实施例将全局图像特征向量和局部图像特征向量进行融合处理,使得后续的文本生成过程既包括全局图像的相关信息又包括局部图像的相关信息,使得全局图像特征向量和局部图像特征向量两者之间建立联系,进而能够提高特定区域的图像文本描述的准确率。
[0013]根据本申请的一些实施例,所述基于预训练的第二特征提取网络模型对所述全局图像特征图进行局部特征提取,得到局部图像特征图,包括:
[0014]基于预训练的第二特征提取网络模型对所述全局图像特征图进行选择性搜索,得到至少一个候选框图;
[0015]对各个所述候选框图分别进行第一特征提取,得到各个所述候选框图对应的候选特征图;
[0016]基于所述候选特征图对所述候选框图进行回归调整,得到精确候选框图;
[0017]基于预训练的第二特征提取网络模型对所述精确候选框图进行第二特征提取,得到所述局部图像特征图。
[0018]根据本申请的一些实施例,所述分别对所述全局图像特征图和所述局部图像特征图进行维度统一提取,得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征的局部图像特征向量,包括:
[0019]对所述全局图像特征图和所述局部图像特征图进行映射处理,得到映射特征图谱;
[0020]基于所述映射特征图谱,分别对所述全局图像特征图和所述局部图像特征图进行最大池化操作得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征的局部图像特征向量。
[0021]根据本申请的一些实施例,所述文本生成网络模型包括注意力网络模型和长短期记忆网络模型,所述基于预训练的文本生成网络模型对所述最终图像特征向量进行文本生成,得到特定区域描述文本,包括:
[0022]基于所述注意力网络模型对所述全局图像特征向量和所述局部图像特征向量进行计算,得到当前文本状态信息;以及基于所述长短期记忆网络模型对所述最终图像特征向量进行计算,得到初始文本信息;
[0023]基于所述长短期记忆网络模型对所述当前文本状态信息和所述初始文本信息进行计算,得到当前文本信息;
[0024]基于所述长短期记忆网络模型对所述当前文本信息进行文本生成,得到所述特定区域描述文本。
[0025]根据本申请的一些实施例,所述基于所述长短期记忆网络模型对所述当前文本信息进行文本生成,得到所述特定区域描述文本之后,还包括:
[0026]基于所述注意力网络模型对新的所述全局图像特征向量和新的所述局部图像特征向量进行计算,得到新的所述当前文本状态信息;
[0027]基于所述长短期记忆网络模型对新的所述当前文本状态信息和前一时刻得到的所述当前文本信息进行计算,得到新的所述当前文本信息;
[0028]基于所述长短期记忆网络模型对新的所述当前文本信息进行文本生成,得到新的所述特定区域描述文本。
[0029]根据本申请的一些实施例,所述对所述全局图像特征向量和所述局部图像特征向量进行融合,得到最终图像特征向量,包括:
[0030]基于权重融合函数对所述全局图像特征向量和所述局部图像特征向量进行融合,得到所述最终图像特征向量。
[0031]根据本申请的一些实施例,所述对所述全局图像特征图和所述局部图像特征图进行映射处理,得到映射特征图谱,包括:
[0032]基于双线性插值算法对所述全局图像特征图和所述局部图像特征图进行映射处理,得到映射特征图谱。
[0033]第二方面,本申请实施例还提供了一种特定区域的图像描述生成装置,包括:
[0034]第一处理模块,用于获取全局图像;
[0035]第二处理模块,用于基于预训练的第一特征提取网络模型对所述全局图像进行全局特征提取,得到全局图像特征图;
[0036]第三处理模块,用于基于预训练的第二特征提取网络模型对所述全局图像特征图进行局部特征提取,得到局部图像特征图;
[0037]第四处理模块,用于分别对所述全局图像特征图和所述局部图像特征图进行维度统一提取,得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征图的局部图像特征向量;
[0038]第五处理模块,用于对所述全局图像特征向量和所述局部图像特征向量进行融合,得到最终图像特征向量;
[0039]第六处理模块,用于基于预训练的文本生成网络模型对所述最终图像特征向量进行文本生成,得到特定区域描述文本。
[0040]第三方面,本申请实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特定区域的图像描述生成方法,其特征在于,所述方法包括:获取全局图像;基于预训练的第一特征提取网络模型对所述全局图像进行全局特征提取,得到全局图像特征图;基于预训练的第二特征提取网络模型对所述全局图像特征图进行局部特征提取,得到局部图像特征图;分别对所述全局图像特征图和所述局部图像特征图进行维度统一提取,得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征图的局部图像特征向量;对所述全局图像特征向量和所述局部图像特征向量进行融合,得到最终图像特征向量;基于预训练的文本生成网络模型对所述最终图像特征向量进行文本生成,得到特定区域描述文本。2.根据权利要求1所述的特定区域的图像描述生成方法,其特征在于,所述基于预训练的第二特征提取网络模型对所述全局图像特征图进行局部特征提取,得到局部图像特征图,包括:基于预训练的第二特征提取网络模型对所述全局图像特征图进行选择性搜索,得到至少一个候选框图;对各个所述候选框图分别进行第一特征提取,得到各个所述候选框图对应的候选特征图;基于所述候选特征图对所述候选框图进行回归调整,得到精确候选框图;基于预训练的第二特征提取网络模型对所述精确候选框图进行第二特征提取,得到所述局部图像特征图。3.根据权利要求1所述的特定区域的图像描述生成方法,其特征在于,所述分别对所述全局图像特征图和所述局部图像特征图进行维度统一提取,得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征的局部图像特征向量,包括:对所述全局图像特征图和所述局部图像特征图进行映射处理,得到映射特征图谱;基于所述映射特征图谱,分别对所述全局图像特征图和所述局部图像特征图进行最大池化操作得到对应所述全局图像特征图的全局图像特征向量和对应所述局部图像特征的局部图像特征向量。4.根据权利要求1所述的特定区域的图像描述生成方法,其特征在于,所述文本生成网络模型包括注意力网络模型和长短期记忆网络模型,所述基于预训练的文本生成网络模型对所述最终图像特征向量进行文本生成,得到特定区域描述文本,包括:基于所述注意力网络模型对所述全局图像特征向量和所述局部图像特征向量进行计算,得到当前文本状态信息;以及基于所述长短期记忆网络模型对所述最终图像特征向量进行计算,得到初始文本信息;基于所述长短期记忆网络模型对所述当前文本状态信息和所述初始文本信息进行计算,得到当前文本信息;基于所述长短期记忆网络模型对所述当前文本信息...

【专利技术属性】
技术研发人员:舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1