一种基于无监督独特性优化的图像描述生成方法及系统技术方案

技术编号:24093818 阅读:31 留言:0更新日期:2020-05-09 09:18
本发明专利技术公开一种基于无监督独特性优化的图像描述生成方法及系统,涉及图像描述技术领域,其实现包括:S1、获取成对的图像和人类生成的真实句子描述,并存储在训练集中;S2、使用训练集包含的成对数据训练图像描述检索模型;S3、构建图像描述生成模型;S4、获取训练集的图像并输入图像描述生成模型,图像描述生成模型生成与图像相对应的句子描述,将图像和生成的句子描述作为成对数据存储在比较集中;S5、利用图像描述检索模型估计比较集中成对数据的相似性,获得损失和梯度;S6、根据损失和梯度调整图像描述生成模型,返回执行S4或者输出最终图像描述生成模型。本发明专利技术可以无监督的生成图像的高质量句子描述,该描述具有多样性、独特性。

An image description generation method and system based on unsupervised uniqueness optimization

【技术实现步骤摘要】
一种基于无监督独特性优化的图像描述生成方法及系统
本专利技术涉及图像描述
,具体的说是一种基于无监督独特性优化的图像描述生成方法及系统。
技术介绍
图像描述是一项需要模型获得对世界的多模式理解并以自然语言文本表达这种理解的任务,从而使其与从人机交互到数据管理的各个领域相关,实际目标是自动生成描述图像最相关的自然语言描述。大多数最新的神经网络模型都建立在编码器-解码器架构上,其中卷积神经网络(CNN)用作图像特征的编码器,该图像特征被馈送到递归神经网络(RNN),该递归神经网络通过充当解码器生成句子描述。解码器通常还包括一个或多个注意力层,以将句子描述聚焦在图像的最突出部分。训练的标准方法是通过最大似然估计(MLE),使用交叉熵损失为相应的图像复刻真实的人类描述。图像描述任务沿用一些机器翻译任务的评价标准,也有类似的方法(CIDEr)被提出专门用于评估图像描述的质量。但是这些方法没有将人类表达的丰富性和多样性考虑进去。SPICE是最近新增的评价标准,它通过比较由真实和生成的图像描述自动生成场景图来度量内容的重叠程度。有方法受生成对抗网络的启发,将图像描述生成模型的训练看作是对抗的过程,其中生成器和判别器处于不断竞争中-判别器旨在区分真实的描述和生成器生成的描述,而生成器旨在生成判别器无法区分的真实的描述。近期图像描述方法显示出了令人印象深刻的结果,这要归功于长短期记忆(LSTM)RNN强大的语言建模能力。但是,尽管MLE训练使模型能够自信地生成与训练集中具有很高似然性的描述,但它限制了其生成新颖描述的能力。这些方法的输出表现出常见n元组(n-gram)和训练集中完整描述的不成比例的复制。导致这个问题的主要原因是现有的测试指标不足。标准度量基于生成的描述和真实描述之间的n元组重叠程度,奖励偏向常见的n元组。这激励模型出现这样的结果:尽管这些模型缺少描述每个图像特定的相关方面的目标,但这些模型输出的通用描述很可能适合一系列相似的图像。基于生成对抗网络的方法能生成多样的描述,但由于生成对抗网络的复杂性,这些方法往往存在训练不稳定的问题。综上所述,现有基于极大似然估计的图像描述方法倾向于生成与训练集相似的句子而忽略特定的图像细节导致生成的句子描述缺乏多样性和生动性,与人类生成的描述差别较大。
技术实现思路
本专利技术针对目前技术发展的需求和不足之处,提供一种基于无监督独特性优化的图像描述生成方法及系统,以生成高质量的图像描述,满足多样性和生动性要求。首先,本专利技术提供一种基于无监督独特性优化的图像描述生成方法,解决上述技术问题采用的技术方案如下:一种基于无监督独特性优化的图像描述生成方法,该方法的实现过程包括:S1、获取成对的图像和人类生成的真实句子描述,并存储在训练集中;S2、使用训练集包含的成对数据训练SentEval工具中的图像描述检索模型;S3、构建图像描述生成模型;S4、获取训练集的图像并输入图像描述生成模型,图像描述生成模型生成与图像相对应的句子描述,将图像和生成的句子描述作为成对数据存储在比较集中;S5、利用训练得到的图像描述检索模型,估计比较集中成对数据的相似性,获得图像描述生成模型的损失和梯度两类参数;S6、判断估计结果是否在设定范围内,若不在则利用步骤S5的损失和梯度调整图像描述生成模型,返回执行步骤S4,若在则输出最终图像描述生成模型。可选的,所涉及图像描述生成模型采用编码器-解码器框架;编码器使用在ImageNet上预训练好的ResNet-101;解码器使用带有注意力机制的两层LTSM,第一层LSTM关注于视觉上的信息,第二层LSTM则关注于语言上的信息。执行步骤S4的具体步骤包括:S4.1、获取训练集的图像并分成多个batch,依次且循环将多个batch所包含的图像输入图像描述生成模型;S4.2、每个batch所包含的图像输入图像描述生成模型后,图像描述生成模型生成与图像相对应的句子描述,将图像和生成的句子描述作为成对数据存储在比较集中,且在多个batch所包含的图像开始循环输入图像描述生成模型时,比较集原来存储的成对数据被清空。进一步的,执行步骤S5的具体步骤包括:S5.1、将batch所包含的成对数据映射到同一个空间中;S5.2、通过点积相似度、余弦相似度、对比点积相似度、对比点余弦相似度的均值来估计图像和生成句子描述两者的相似性,得到调整图像描述生成模型的损失和梯度两类参数。更进一步的,执行步骤S6的具体步骤包括:S6.1、手动设定阈值范围,并判断损失和梯度是否在阈值范围内,a)、若在阈值范围内,则输出最终图像描述生成模型;b)、若不在阈值范围内,则继续执行S6.2;S6.2、根据步骤S5.2得到的损失和梯度参数调整图像描述生成模型;S6.3、获取下一个batch所包含的图像并输入步骤S6.2调整得到的图像描述生成模型,返回执行S4.2。优选的,得到最终图像描述生成模型后,还可以再次执行步骤S6.1-步骤S6.3,检验得到的损失和梯度两类参数是否仍在设定范围内,a)如果检验结果仍在设定范围内,则表明最终图像描述生成模型通过检验;b)如果检验结果不在设定范围内,则表明最终图像描述生成模型未通过检验。其次,本专利技术还提供一种基于无监督独特性优化的图像描述生成系统,解决上述技术问题采用的技术方案如下:一种基于无监督独特性优化的图像描述生成系统,其包括:获取存储模块,用于获取成对的图像和人类生成的真实句子描述,并存储在训练集中;训练模块,用于使用训练集包含的成对数据训练SentEval工具的图像描述检索模型;构建模块,用于构建图像描述生成模型;拆分处理模块,用于获取训练集的图像并分成多个batch,还用于将多个batch所包含的图像依次且循环输入图像描述生成模型;图像描述生成模型,用于获取batch所包含的图像并生成与图像相对应的句子描述,还用于将图像和生成的句子描述作为成对数据存储在比较集中;在多个batch所包含的图像开始循环输入图像描述生成模型时,比较集原来存储的成对数据被清空;图像描述检索模型,用于估计比较集中成对数据的相似性,获得图像描述生成模型的损失和梯度两类参数;阈值判断模块,用于设定损失和梯度两类参数的范围,并判断图像描述检索模型输出的损失和梯度两类参数是否在设定范围内;调整模块,用于使用不在设定范围内的损失和梯度两类参数调整图像描述生成模型,至图像描述检索模型输出的损失和梯度在设定范围时,输出最终图像描述生成模型。可选的,所涉及构建模块采用编码器-解码器框架构建图像描述生成模型;编码器使用在ImageNet上预训练好的ResNet-101;解码器使用带有注意力机制的两层LTSM,第一层LSTM关注于视觉上的信息,第二层LSTM则关注于语言上的信息。可选的,所涉及图像描述检索本文档来自技高网
...

【技术保护点】
1.一种基于无监督独特性优化的图像描述生成方法,其特征在于,该方法的实现过程包括:/nS1、获取成对的图像和人类生成的真实句子描述,并存储在训练集中;/nS2、使用训练集包含的成对数据训练SentEval工具中的图像描述检索模型;/nS3、构建图像描述生成模型;/nS4、获取训练集的图像并输入图像描述生成模型,图像描述生成模型生成与图像相对应的句子描述,将图像和生成的句子描述作为成对数据存储在比较集中;/nS5、利用训练得到的图像描述检索模型,估计比较集中成对数据的相似性,获得图像描述生成模型的损失和梯度两类参数;/nS6、判断估计结果是否在设定范围内,若不在则利用步骤S5的损失和梯度调整图像描述生成模型,返回执行步骤S4,若在则输出最终图像描述生成模型。/n

【技术特征摘要】
1.一种基于无监督独特性优化的图像描述生成方法,其特征在于,该方法的实现过程包括:
S1、获取成对的图像和人类生成的真实句子描述,并存储在训练集中;
S2、使用训练集包含的成对数据训练SentEval工具中的图像描述检索模型;
S3、构建图像描述生成模型;
S4、获取训练集的图像并输入图像描述生成模型,图像描述生成模型生成与图像相对应的句子描述,将图像和生成的句子描述作为成对数据存储在比较集中;
S5、利用训练得到的图像描述检索模型,估计比较集中成对数据的相似性,获得图像描述生成模型的损失和梯度两类参数;
S6、判断估计结果是否在设定范围内,若不在则利用步骤S5的损失和梯度调整图像描述生成模型,返回执行步骤S4,若在则输出最终图像描述生成模型。


2.根据权利要求1所述的一种基于无监督独特性优化的图像描述生成方法,其特征在于,所述图像描述生成模型采用编码器-解码器框架;
所述编码器使用在ImageNet上预训练好的ResNet-101;
所述解码器使用带有注意力机制的两层LTSM,第一层LSTM关注于视觉上的信息,第二层LSTM则关注于语言上的信息。


3.根据权利要求1所述的一种基于无监督独特性优化的图像描述生成方法,其特征在于,执行步骤S4的具体步骤包括:
S4.1、获取训练集的图像并分成多个batch,依次且循环将多个batch所包含的图像输入图像描述生成模型;
S4.2、每个batch所包含的图像输入图像描述生成模型后,图像描述生成模型生成与图像相对应的句子描述,将图像和生成的句子描述作为成对数据存储在比较集中,且在多个batch所包含的图像开始循环输入图像描述生成模型时,比较集原来存储的成对数据被清空。


4.根据权利要求3所述的一种基于无监督独特性优化的图像描述生成方法,其特征在于,执行步骤S5的具体步骤包括:
S5.1、将batch所包含的成对数据映射到同一个空间中;
S5.2、通过点积相似度、余弦相似度、对比点积相似度、对比点余弦相似度的均值来估计图像和生成句子描述两者的相似性,得到调整图像描述生成模型的损失和梯度两类参数。


5.根据权利要求4所述的一种基于无监督独特性优化的图像描述生成方法,其特征在于,执行步骤S6的具体步骤包括:
S6.1、手动设定阈值范围,并判断损失和梯度是否在阈值范围内,
a)、若在阈值范围内,则输出最终图像描述生成模型;
b)、若不在阈值范围内,则继续执行S6.2;
S6.2、根据步骤S5.2得到的损失和梯度参数调整图像描述生成模型;
S6.3、获取下一个batch所包含的图像并输入步骤S6.2调整得到的图像描述生成模型,返回执行S4.2。


...

【专利技术属性】
技术研发人员:吴烨李锐金长新
申请(专利权)人:山东浪潮人工智能研究院有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1