一种基于无监督独特性优化的图像描述生成方法及系统技术方案

技术编号：24093818 阅读：31 留言：0更新日期：2020-05-09 09:18

本发明专利技术公开一种基于无监督独特性优化的图像描述生成方法及系统，涉及图像描述技术领域，其实现包括：S1、获取成对的图像和人类生成的真实句子描述，并存储在训练集中；S2、使用训练集包含的成对数据训练图像描述检索模型；S3、构建图像描述生成模型；S4、获取训练集的图像并输入图像描述生成模型，图像描述生成模型生成与图像相对应的句子描述，将图像和生成的句子描述作为成对数据存储在比较集中；S5、利用图像描述检索模型估计比较集中成对数据的相似性，获得损失和梯度；S6、根据损失和梯度调整图像描述生成模型，返回执行S4或者输出最终图像描述生成模型。本发明专利技术可以无监督的生成图像的高质量句子描述，该描述具有多样性、独特性。

An image description generation method and system based on unsupervised uniqueness optimization

全部详细技术资料下载

【技术实现步骤摘要】
一种基于无监督独特性优化的图像描述生成方法及系统
本专利技术涉及图像描述
，具体的说是一种基于无监督独特性优化的图像描述生成方法及系统。
技术介绍
图像描述是一项需要模型获得对世界的多模式理解并以自然语言文本表达这种理解的任务，从而使其与从人机交互到数据管理的各个领域相关，实际目标是自动生成描述图像最相关的自然语言描述。大多数最新的神经网络模型都建立在编码器-解码器架构上，其中卷积神经网络(CNN)用作图像特征的编码器，该图像特征被馈送到递归神经网络(RNN)，该递归神经网络通过充当解码器生成句子描述。解码器通常还包括一个或多个注意力层，以将句子描述聚焦在图像的最突出部分。训练的标准方法是通过最大似然估计(MLE)，使用交叉熵损失为相应的图像复刻真实的人类描述。图像描述任务沿用一些机器翻译任务的评价标准，也有类似的方法(CIDEr)被提出专门用于评估图像描述的质量。但是这些方法没有将人类表达的丰富性和多样性考虑进去。SPICE是最近新增的评价标准，它通过比较由真实和生成的图像描述自动生成场景图来度量内容的重叠程度。有方法受生成对抗网络的启发，将图像描述生成模型的训练看作是对抗的过程，其中生成器和判别器处于不断竞争中-判别器旨在区分真实的描述和生成器生成的描述，而生成器旨在生成判别器无法区分的真实的描述。近期图像描述方法显示出了令人印象深刻的结果，这要归功于长短期记忆(LSTM)RNN强大的语言建模能力。但是，尽管MLE训练使模型能够自信地生成与训练集中具有很高似然性的描述，但它限制了其生成新颖描述的能力...

【技术保护点】
1.一种基于无监督独特性优化的图像描述生成方法，其特征在于,该方法的实现过程包括：/nS1、获取成对的图像和人类生成的真实句子描述，并存储在训练集中；/nS2、使用训练集包含的成对数据训练SentEval工具中的图像描述检索模型；/nS3、构建图像描述生成模型；/nS4、获取训练集的图像并输入图像描述生成模型，图像描述生成模型生成与图像相对应的句子描述，将图像和生成的句子描述作为成对数据存储在比较集中；/nS5、利用训练得到的图像描述检索模型，估计比较集中成对数据的相似性，获得图像描述生成模型的损失和梯度两类参数；/nS6、判断估计结果是否在设定范围内，若不在则利用步骤S5的损失和梯度调整图像描述生成模型，返回执行步骤S4，若在则输出最终图像描述生成模型。/n

【技术特征摘要】
1.一种基于无监督独特性优化的图像描述生成方法，其特征在于,该方法的实现过程包括：
S1、获取成对的图像和人类生成的真实句子描述，并存储在训练集中；
S2、使用训练集包含的成对数据训练SentEval工具中的图像描述检索模型；
S3、构建图像描述生成模型；
S4、获取训练集的图像并输入图像描述生成模型，图像描述生成模型生成与图像相对应的句子描述，将图像和生成的句子描述作为成对数据存储在比较集中；
S5、利用训练得到的图像描述检索模型，估计比较集中成对数据的相似性，获得图像描述生成模型的损失和梯度两类参数；
S6、判断估计结果是否在设定范围内，若不在则利用步骤S5的损失和梯度调整图像描述生成模型，返回执行步骤S4，若在则输出最终图像描述生成模型。

2.根据权利要求1所述的一种基于无监督独特性优化的图像描述生成方法，其特征在于，所述图像描述生成模型采用编码器-解码器框架；
所述编码器使用在ImageNet上预训练好的ResNet-101；
所述解码器使用带有注意力机制的两层LTSM，第一层LSTM关注于视觉上的信息，第二层LSTM则关注于语言上的信息。

3.根据权利要求1所述的一种基于无监督独特性优化的图像描述生成方法，其特征在于，执行步骤S4的具体步骤包括：
S4.1、获取训练集的图像并分成多个batch，依次且循环将多个batch所包含的图像输入图像描述生成模型；
S4.2、每个batch所包含的图像输入图像描述生成模型后，图像描述生成模型生成与图像相对应的句子描述，将图像和生成的句子描述作为成对数据存储在比较集中，且在多个batch所包含的图像开始循环输入图像描述生成模型时，比较集原来存储的成对数据被清空。

4.根据权利要求3所述的一种基于无监督独特性优化的图像描述生成方法，其特征在于，执行步骤S5的具体步骤包括：
S5.1、将batch所包含的成对数据映射到同一个空间中；
S5.2、通过点积相似度、余弦相似度、对比点积相似度、对比点余弦相似度的均值来估计图像和生成句子描述两者的相似性，得到调整图像描述生成模型的损失和梯度两类参数。

5.根据权利要求4所述的一种基于无监督独特性优化的图像描述生成方法，其特征在于，执行步骤S6的具体步骤包括：
S6.1、手动设定阈值范围，并判断损失和梯度是否在阈值范围内，
a)、若在阈值范围内，则输出最终图像描述生成模型；
b)、若不在阈值范围内，则继续执行S6.2；
S6.2、根据步骤S5.2得到的损失和梯度参数调整图像描述生成模型；
S6.3、获取下一个batch所包含的图像并输入步骤S6.2调整得到的图像描述生成模型，返回执行S4.2。

...

【专利技术属性】
技术研发人员：吴烨，李锐，金长新，
申请(专利权)人：山东浪潮人工智能研究院有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人