基于Actor-Critic生成式对抗网络的图片描述生成方法及系统技术方案

技术编号：24169145 阅读：83 留言：0更新日期：2020-05-16 02:23

本发明专利技术公开了一种基于Actor‑Critic生成式对抗网络的图片描述生成方法及系统，包括以下步骤：(1)获取已知文本描述的图片并进行预处理，构建训练集；(2)基于生成对抗网络和Actor‑Critic算法搭建目标网络，所述的目标网络包含生成器网络、判别器网络和Critic网络；(3)将训练集中的图片本身及其文本描述输入到目标网络中，对生成器和判别器进行预训练和对抗训练，再采用Actor‑Critic算法对生成器的参数进行单步更新；(4)将需要生成文本描述的目标图片输入到训练好的生成器中，得到该目标图片的文本描述。本发明专利技术基于Actor‑Critic算法，采用对抗网络技术，可在给定图像上生成多样化的文本描述。

Image description generation method and system based on actor critical generative countermeasure network

全部详细技术资料下载

【技术实现步骤摘要】
基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
本专利技术涉及强化学习领域、计算机视觉和自然语言处理领域，尤其涉及一种基于Actor-Critic生成式对抗网络的图片描述生成方法及系统。
技术介绍
图像摘要(ImageCaption)是计算机视觉的一个重要问题。在传统的图像摘要任务中，常用的模型就是Encoder-Decoder(编码-解码)模型。一般情况下，Encoder采用卷积神经网络(ConvolutionalNeuralNetworks，CNN)提取图像特征，而Decoder采用递归神经网络(RecursiveNeuralNetwork，RNN)从图像特征中生成摘要。这是因为CNN在提取图像特征中表现良好，而RNN对输入存在记忆能力，在文本生成方面表现突出。QiWu(Q.Wu，C.Shen，A.vandenHengel，L.Liu，andA.Dick.WhatValueDoExplicitHigh-LevelConceptsHaveinVisiontoLanguageProblems？InCVPR，2016.2)发表的论文中提出，将Decoder的输入从提取图像特征，改成对应图像的高级语义特征，整个模型的表现成都可以提高。因为在此之前的方法并不显式地表示高级语义概念，而是寻求直接从图像特征发展到文本。通过把图像特征替换为高级语义特征，这的确获得了成效。生成式对抗网络(GenerativeAdversarialNetworks，GAN)是基于零和博弈的一种方法...

【技术保护点】
1.一种基Actor-Critic生成式对抗网络的图片描述生成方法，其特征在于，包括以下步骤：/n(1)获取已知文本描述的图片并进行预处理，构建训练集；/n(2)基于生成对抗网络和Actor-Critic算法搭建目标网络，所述的目标网络包含生成器网络、判别器网络和Critic网络；/n(3)将训练集中的图片本身及其文本描述输入到目标网络中，对生成器和判别器进行预训练和对抗训练，再采用Actor-Critic算法对生成器的参数进行单步更新；/n(4)将需要生成文本描述的目标图片输入到训练好的生成器中，得到该目标图片的文本描述。/n

【技术特征摘要】
1.一种基Actor-Critic生成式对抗网络的图片描述生成方法，其特征在于，包括以下步骤：
(1)获取已知文本描述的图片并进行预处理，构建训练集；
(2)基于生成对抗网络和Actor-Critic算法搭建目标网络，所述的目标网络包含生成器网络、判别器网络和Critic网络；
(3)将训练集中的图片本身及其文本描述输入到目标网络中，对生成器和判别器进行预训练和对抗训练，再采用Actor-Critic算法对生成器的参数进行单步更新；
(4)将需要生成文本描述的目标图片输入到训练好的生成器中，得到该目标图片的文本描述。

2.根据权利要求1所述的基于Actor-Critic生成式对抗网络的图片描述生成方法，其特征在于，步骤(1)包括：
(1-1)获取已知文本描述的图片数据集；
(1-2)对数据集中的图片进行图像增强，对文本描述进行数据清洗；
(1-3)将处理后的图片和对应的文本描述保存为指定格式的文件。

3.根据权利要求1所述的基于Actor-Critic生成式对抗网络的图片描述生成方法，其特征在于，步骤(2)包括：
(2-1)搭建生成器网络，所述的生成器网络由卷积神经网络、循环神经网络以及一个全连接层组成；
所述的卷积神经网络采用HCP(Hypotheses-CNN-Pooling)结构，所述的循环神经网络采用长短期记忆网络结构；
(2-2)以编码-解码模型为模型架构，以长短期记忆网络为网络模型，搭建判别器网络；
(2-3)搭建Critic网络，所述Critic网络为多层的长短期记忆网络，用以指导生成器网络参数的更新。

4.根据权利要求3所述的基于Actor-Critic生成式对抗网络的图片描述生成方法，其特征在于，生成器网络中语言模型通过以下方法构建：
(a)利用Word2Vec为对数据集中文本描述的每个单词构建词向量，删除出现次数较少的单词，保留出现频繁的单词；
(b)分别将标记性单词<sos>、<eos>添加到句子的开头、结尾，并随机生成标记性单词的词向量；
(c)将Word2Vec构建的词向量和标记性单词的词向量合并，得到语言模型。

5.根据权利要求3所述的基于Actor-Critic生成式对抗网络的图片描述生成方法，其特征在于，采用HCP提取图片的高级语言特征包括：
(i)采用多尺度组合分组(MultiscaleCombinatorialGrouping，MCG)算法将输入图片分割为多个似物性推荐框(Hypotheses)；
(ii)采用归一化切割(Normalizedcuts，Ncut)算法对似物性推荐框进行聚类，分为M类；(iii)在每一类中，按照多尺度组合分组算法给出的预测分数对似物性推荐框进行排序，在M类中各取出分数最高的K个似物性推荐框...

【专利技术属性】
技术研发人员：陈建海，李天旭，季博，楼智豪，袁嘉琪，何钦铭，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人