【技术实现步骤摘要】
基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
本专利技术涉及强化学习领域、计算机视觉和自然语言处理领域,尤其涉及一种基于Actor-Critic生成式对抗网络的图片描述生成方法及系统。
技术介绍
图像摘要(ImageCaption)是计算机视觉的一个重要问题。在传统的图像摘要任务中,常用的模型就是Encoder-Decoder(编码-解码)模型。一般情况下,Encoder采用卷积神经网络(ConvolutionalNeuralNetworks,CNN)提取图像特征,而Decoder采用递归神经网络(RecursiveNeuralNetwork,RNN)从图像特征中生成摘要。这是因为CNN在提取图像特征中表现良好,而RNN对输入存在记忆能力,在文本生成方面表现突出。QiWu(Q.Wu,C.Shen,A.vandenHengel,L.Liu,andA.Dick.WhatValueDoExplicitHigh-LevelConceptsHaveinVisiontoLanguageProblems?InCVPR,2016.2)发表的论文中提出,将Decoder的输入从提取图像特征,改成对应图像的高级语义特征,整个模型的表现成都可以提高。因为在此之前的方法并不显式地表示高级语义概念,而是寻求直接从图像特征发展到文本。通过把图像特征替换为高级语义特征,这的确获得了成效。生成式对抗网络(GenerativeAdversarialNetworks,GAN)是基于零和博弈的一种方法 ...
【技术保护点】
1.一种基Actor-Critic生成式对抗网络的图片描述生成方法,其特征在于,包括以下步骤:/n(1)获取已知文本描述的图片并进行预处理,构建训练集;/n(2)基于生成对抗网络和Actor-Critic算法搭建目标网络,所述的目标网络包含生成器网络、判别器网络和Critic网络;/n(3)将训练集中的图片本身及其文本描述输入到目标网络中,对生成器和判别器进行预训练和对抗训练,再采用Actor-Critic算法对生成器的参数进行单步更新;/n(4)将需要生成文本描述的目标图片输入到训练好的生成器中,得到该目标图片的文本描述。/n
【技术特征摘要】
1.一种基Actor-Critic生成式对抗网络的图片描述生成方法,其特征在于,包括以下步骤:
(1)获取已知文本描述的图片并进行预处理,构建训练集;
(2)基于生成对抗网络和Actor-Critic算法搭建目标网络,所述的目标网络包含生成器网络、判别器网络和Critic网络;
(3)将训练集中的图片本身及其文本描述输入到目标网络中,对生成器和判别器进行预训练和对抗训练,再采用Actor-Critic算法对生成器的参数进行单步更新;
(4)将需要生成文本描述的目标图片输入到训练好的生成器中,得到该目标图片的文本描述。
2.根据权利要求1所述的基于Actor-Critic生成式对抗网络的图片描述生成方法,其特征在于,步骤(1)包括:
(1-1)获取已知文本描述的图片数据集;
(1-2)对数据集中的图片进行图像增强,对文本描述进行数据清洗;
(1-3)将处理后的图片和对应的文本描述保存为指定格式的文件。
3.根据权利要求1所述的基于Actor-Critic生成式对抗网络的图片描述生成方法,其特征在于,步骤(2)包括:
(2-1)搭建生成器网络,所述的生成器网络由卷积神经网络、循环神经网络以及一个全连接层组成;
所述的卷积神经网络采用HCP(Hypotheses-CNN-Pooling)结构,所述的循环神经网络采用长短期记忆网络结构;
(2-2)以编码-解码模型为模型架构,以长短期记忆网络为网络模型,搭建判别器网络;
(2-3)搭建Critic网络,所述Critic网络为多层的长短期记忆网络,用以指导生成器网络参数的更新。
4.根据权利要求3所述的基于Actor-Critic生成式对抗网络的图片描述生成方法,其特征在于,生成器网络中语言模型通过以下方法构建:
(a)利用Word2Vec为对数据集中文本描述的每个单词构建词向量,删除出现次数较少的单词,保留出现频繁的单词;
(b)分别将标记性单词<sos>、<eos>添加到句子的开头、结尾,并随机生成标记性单词的词向量;
(c)将Word2Vec构建的词向量和标记性单词的词向量合并,得到语言模型。
5.根据权利要求3所述的基于Actor-Critic生成式对抗网络的图片描述生成方法,其特征在于,采用HCP提取图片的高级语言特征包括:
(i)采用多尺度组合分组(MultiscaleCombinatorialGrouping,MCG)算法将输入图片分割为多个似物性推荐框(Hypotheses);
(ii)采用归一化切割(Normalizedcuts,Ncut)算法对似物性推荐框进行聚类,分为M类;(iii)在每一类中,按照多尺度组合分组算法给出的预测分数对似物性推荐框进行排序,在M类中各取出分数最高的K个似物性推荐框...
【专利技术属性】
技术研发人员:陈建海,李天旭,季博,楼智豪,袁嘉琪,何钦铭,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。