当前位置: 首页 > 专利查询>浙江大学专利>正文

基于Actor-Critic生成式对抗网络的图片描述生成方法及系统技术方案

技术编号:24169145 阅读:83 留言:0更新日期:2020-05-16 02:23
本发明专利技术公开了一种基于Actor‑Critic生成式对抗网络的图片描述生成方法及系统,包括以下步骤:(1)获取已知文本描述的图片并进行预处理,构建训练集;(2)基于生成对抗网络和Actor‑Critic算法搭建目标网络,所述的目标网络包含生成器网络、判别器网络和Critic网络;(3)将训练集中的图片本身及其文本描述输入到目标网络中,对生成器和判别器进行预训练和对抗训练,再采用Actor‑Critic算法对生成器的参数进行单步更新;(4)将需要生成文本描述的目标图片输入到训练好的生成器中,得到该目标图片的文本描述。本发明专利技术基于Actor‑Critic算法,采用对抗网络技术,可在给定图像上生成多样化的文本描述。

Image description generation method and system based on actor critical generative countermeasure network

【技术实现步骤摘要】
基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
本专利技术涉及强化学习领域、计算机视觉和自然语言处理领域,尤其涉及一种基于Actor-Critic生成式对抗网络的图片描述生成方法及系统。
技术介绍
图像摘要(ImageCaption)是计算机视觉的一个重要问题。在传统的图像摘要任务中,常用的模型就是Encoder-Decoder(编码-解码)模型。一般情况下,Encoder采用卷积神经网络(ConvolutionalNeuralNetworks,CNN)提取图像特征,而Decoder采用递归神经网络(RecursiveNeuralNetwork,RNN)从图像特征中生成摘要。这是因为CNN在提取图像特征中表现良好,而RNN对输入存在记忆能力,在文本生成方面表现突出。QiWu(Q.Wu,C.Shen,A.vandenHengel,L.Liu,andA.Dick.WhatValueDoExplicitHigh-LevelConceptsHaveinVisiontoLanguageProblems?InCVPR,2016.2)发表的论文中提出,将Decoder的输入从提取图像特征,改成对应图像的高级语义特征,整个模型的表现成都可以提高。因为在此之前的方法并不显式地表示高级语义概念,而是寻求直接从图像特征发展到文本。通过把图像特征替换为高级语义特征,这的确获得了成效。生成式对抗网络(GenerativeAdversarialNetworks,GAN)是基于零和博弈的一种方法。系统由生成器G和判别器D组成。生成器G致力于伪造逼真的数据去欺骗判别器D,而判别器D则致力于尽可能地正确区分真实数据与生成数据,并输出该数据为真实数据的可能性概率。目前GAN受到广泛关注,在许多领域已经取得不错成果,尤其在图像生成任务方面,GAN因为能生成多样的“真实”图像,而一直难以被其他模型超越。然而GAN在文本生成方面却遇到了阻碍。这是因为GAN在利用反向传播更新梯度的时候,由于离散数据的生成需要根据概率来采样,而采样过程不可导,这就导致反向传播失去意义。LantaoYu(L.Yu,W.Zhang,J.Wang,andY.Yu.Seqgan:Sequencegenerativeadversarialnetswithpolicygradient.arXivpreprintarXiv:1609.05473,2016.2)提出的序列生成对抗网络(SequenceGenerativeAdversarialNets,SeqGAN)模型解决了这个问题。SeqGAN结合了GAN和策略梯度(PolicyGradient)的强化学习方法使得离散数据也能够在GAN中得到训练。SeqGAN通过强化学习的方法解决了离散数据的训练问题,为GAN在文本生成领域提供了一套方法,但是诸多的实验结果表明,SeqGAN模型生成的文本质量是粗糙的,远达不到预期。因此,SeqGAN模型本身仍有改进空间。而GAN的提出者IanGoodFellow在2018年提出了一种叫做MaskGAN的应用于完形填空任务的模型,并取得了不错了实验结果。MaskGAN为进一步提升生成文本的质量指出了方向,其与SeqGAN有两个主要的区别:首先,通过屏蔽序列(MaskedSequence)增加额外的信息使模型成为Seq2Seq的架构;其次,使用了Actor-Critic(演员-评论者)的强化学习方法。作者认为前者可能对于缓解模型崩溃(ModeCollapse)问题有所帮助,而后者则能较好地解决SeqGAN训练不稳定的问题。
技术实现思路
基于现有文本描述生成模型关注于生成文本的准确度而非多样性,本专利技术提供了一种基于Actor-Critic生成式对抗网络的图片描述生成方法,采用对抗网络技术在给定图像上生成多样化的文本描述。具体技术方案如下:一种基于Actor-Critic生成式对抗网络的图片描述生成方法,包括以下步骤:(1)获取已知文本描述的图片并进行预处理,构建训练集;(2)基于生成对抗网络和Actor-Critic算法搭建目标网络,所述的目标网络包含生成器网络、判别器网络和Critic网络;(3)将训练集中的图片本身及其文本描述输入到目标网络中,对生成器和判别器进行预训练和对抗训练,再采用Actor-Critic算法对生成器的参数进行单步更新;(4)将需要生成文本描述的目标图片输入到训练好的生成器中,得到该目标图片的文本描述。本专利技术利用对抗网络的思想构建了图片生成文本描述的对抗学习网络,使用强化学习思想解决对抗网络在离散文本数据生成上的问题,同时复用生成器作为Actor,并新构建Critic网络来对生成器做单步更新,实现了基于生成式对抗网络实现图片文本描述生成的模型,便于多样性文本的生成,并且有利于生产环境下图片文本描述的大量生产需求。步骤(1)包括:(1-1)获取已知文本描述的图片数据集;如COCO数据集(CommonObjectsinContext);(1-2)对数据集中的图片进行图像增强,对文本描述进行数据清洗;所述的图像增强包括水平随机翻转、亮度调整等;所述的数据清洗是指将单词的单复数形式、时态等删除,保留词根等信息。(1-3)将处理后的图片和对应的文本描述保存为指定格式的文件,以便后续程序调用和处理。步骤(2)包括:(2-1)搭建生成器网络,所述的生成器网络由卷积神经网络、循环神经网络以及一个全连接层组成;所述的生成器网络以图片作为输入,通过卷积神经网络对输入图片进行高级语义特征提取,循环神经网络以图片的高级语义特征为输入,在时间步上进行扩展,输出隐层状态,通过全连接层后输出句子的词向量;所述的卷积神经网络采用HCP(Hypotheses-CNN-Pooling)结构,所述的循环神经网络采用长短期记忆网络(LongShort-TermMemory,LSTM)结构;(2-2)以编码-解码(Encoder-Decoder)模型为模型架构,以长短期记忆网络为网络模型,搭建判别器网络;所述判别器以真实样本和生成器的生成样本为输入,经过词向量转化(Embedding)、编码-解码,最后通过全连接层输出生成样本为真的概率;(2-3)搭建Critic网络,所述Critic网络为多层的长短期记忆网络,用以指导生成器网络参数的更新;所述的Critic网络以state、action作为输入,输出Q值;其中state表示一个状态,即已生成的文本;action表示采取的动作,即从词库中选取的单词;Q(state、action)表示在状态state上采取动作action后所获得的累计奖励和(cumulatedreward)。优选的,生成器网络中语言模型通过以下方法构建:(a)利用Word2Vec为对数据集中文本描述的每个单词构建词向量,删除出现次数较少的单词,保留出现频繁的单词;(b)分别将本文档来自技高网
...

【技术保护点】
1.一种基Actor-Critic生成式对抗网络的图片描述生成方法,其特征在于,包括以下步骤:/n(1)获取已知文本描述的图片并进行预处理,构建训练集;/n(2)基于生成对抗网络和Actor-Critic算法搭建目标网络,所述的目标网络包含生成器网络、判别器网络和Critic网络;/n(3)将训练集中的图片本身及其文本描述输入到目标网络中,对生成器和判别器进行预训练和对抗训练,再采用Actor-Critic算法对生成器的参数进行单步更新;/n(4)将需要生成文本描述的目标图片输入到训练好的生成器中,得到该目标图片的文本描述。/n

【技术特征摘要】
1.一种基Actor-Critic生成式对抗网络的图片描述生成方法,其特征在于,包括以下步骤:
(1)获取已知文本描述的图片并进行预处理,构建训练集;
(2)基于生成对抗网络和Actor-Critic算法搭建目标网络,所述的目标网络包含生成器网络、判别器网络和Critic网络;
(3)将训练集中的图片本身及其文本描述输入到目标网络中,对生成器和判别器进行预训练和对抗训练,再采用Actor-Critic算法对生成器的参数进行单步更新;
(4)将需要生成文本描述的目标图片输入到训练好的生成器中,得到该目标图片的文本描述。


2.根据权利要求1所述的基于Actor-Critic生成式对抗网络的图片描述生成方法,其特征在于,步骤(1)包括:
(1-1)获取已知文本描述的图片数据集;
(1-2)对数据集中的图片进行图像增强,对文本描述进行数据清洗;
(1-3)将处理后的图片和对应的文本描述保存为指定格式的文件。


3.根据权利要求1所述的基于Actor-Critic生成式对抗网络的图片描述生成方法,其特征在于,步骤(2)包括:
(2-1)搭建生成器网络,所述的生成器网络由卷积神经网络、循环神经网络以及一个全连接层组成;
所述的卷积神经网络采用HCP(Hypotheses-CNN-Pooling)结构,所述的循环神经网络采用长短期记忆网络结构;
(2-2)以编码-解码模型为模型架构,以长短期记忆网络为网络模型,搭建判别器网络;
(2-3)搭建Critic网络,所述Critic网络为多层的长短期记忆网络,用以指导生成器网络参数的更新。


4.根据权利要求3所述的基于Actor-Critic生成式对抗网络的图片描述生成方法,其特征在于,生成器网络中语言模型通过以下方法构建:
(a)利用Word2Vec为对数据集中文本描述的每个单词构建词向量,删除出现次数较少的单词,保留出现频繁的单词;
(b)分别将标记性单词<sos>、<eos>添加到句子的开头、结尾,并随机生成标记性单词的词向量;
(c)将Word2Vec构建的词向量和标记性单词的词向量合并,得到语言模型。


5.根据权利要求3所述的基于Actor-Critic生成式对抗网络的图片描述生成方法,其特征在于,采用HCP提取图片的高级语言特征包括:
(i)采用多尺度组合分组(MultiscaleCombinatorialGrouping,MCG)算法将输入图片分割为多个似物性推荐框(Hypotheses);
(ii)采用归一化切割(Normalizedcuts,Ncut)算法对似物性推荐框进行聚类,分为M类;(iii)在每一类中,按照多尺度组合分组算法给出的预测分数对似物性推荐框进行排序,在M类中各取出分数最高的K个似物性推荐框...

【专利技术属性】
技术研发人员:陈建海李天旭季博楼智豪袁嘉琪何钦铭
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1