一种基于生成对抗网络的图像自动文本标注方法技术

技术编号:16529409 阅读:1081 留言:0更新日期:2017-11-09 21:18
本发明专利技术公开了一种基于生成对抗网络的图像自动文本标注方法,包括以下步骤:由生成器产生假的语句,同时重新构建一个判别器,将生成的语句和真实语句输入进行训练,直至判别器无法判别出真实语句和生成语句。本发明专利技术改变了CNN‑RNN图像自动语句标注中产生句子生硬、死板的问题,并且使得生成的句子更为准确、自然、多样性,生成的语句可以面对现实中更为复杂的景象,更加符合人类的语言表达方式标注图像,在实际中有着更为广泛的应用。

【技术实现步骤摘要】
一种基于生成对抗网络的图像自动文本标注方法
本专利技术涉及图像语句标注领域,具体涉及一种基于生成对抗网络的图像自动文本标注方法。
技术介绍
近年来,图像自动语句标注问题获得了广泛研究。由于不仅涉及图像本身的目标识别问题,还涉及到自然语言处理问题,当前主要相关方法可以总结为以下三种:语义模板填充法:此方法通过获得图像中的具体目标,将代表目标的类别文本放入一个固定自然语言生成模板中,自动生成语句。有的方法使用目标识别的结果来组成一个包含固定三个语义元素的简单句子。有的方法将识别的目标间关系也一同放入同一个模板中,组成包含更多语义的句子。特征空间匹配法:此方法提前构造了大量语句,通过将图像和构造好的语句都投射到高维的特征空间,寻找特征相近的匹配语句。有的方法构建了多个kernel,通过ranking的方式对各个数据空间的数据进行比较,以寻找其间的关系。有的方法提出通过分析图片中可能包含的噪声标题、标签或者表述,为这种特征空间映射的方法提供更多有用的信息。CNN-RNN方法:此方法通过CNN(卷积神经网络)提取图像的特征,将特征输入到一个RNN[29](循环神经网络)中,利用NLP(自然语言处理)的训练方式,训练一个语句产生模块,同时可以实现端到端的训练过程。有的方法将图像提取的特征直接输入到循环神经网络模块,传入LSTM循环神经网络,获得标注结果,该模型效果较为优秀。传统方法虽然在一定程度上可以解决标注问题,却仍然有一定缺陷:语义模板填充法:这种基于语义模板填充的图像自动文本标注算法,在一定程度上可以构建出符合模板的句子,但是在实际应用中,其语言表述能力十分薄弱,并且所能应用的场景相对有限。特征空间匹配法:这种特征空间匹配法,需要大量语句数据支撑,并且其本质并非是产生语句,而是匹配现有语句,在实际应用中无法面对现实中的复杂景象。CNN-RNN方法:此方法本虽然在一定程度上克服了之前两种方法的缺陷,但由于其使用最大似然估计来计算,生成的自动语句标注十分接近样本语句,却距离真实语境仍然有一定差距。其生成语句缺乏生动、自然的表述,相较于人类语言显得生硬、死板。近年来,生成对抗网络(GAN,GenerativeAdversarialNetworks)受到了学术界与工业界的极大重视,成为近两年来最热门的研究领域之一。与传统的机器学习方法不同,GAN最大的特点在于引入了对抗机制,能用于真实数据分布的建模和生成。当前,生成对抗网络模型吸引了大量的研究学者,在诸多方面得到了进一步扩展。可以看出,与传统的机器学习方法不同,GAN最大的特点在于能够用于真实数据分布的建模和生成。纵观现有的生成对抗网络方法,其大多是针对单一数据域。因此,GAN有望解决CNN-RNN方法中的生成语句生硬问题。
技术实现思路
本专利技术的目的在于克服现有技术存在的以上问题,提供一种基于生成对抗网络的图像自动文本标注方法,本专利技术以深度神经网络、光学图像、自然语言处理等为基础,总结传统的图像自动语句标注解决方法,探究基于生成对抗网络研究设计图像自动语句标注方法及其应用。为实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现:一种基于生成对抗网络的图像自动文本标注方法,包括以下步骤:S101将CNN多标签分类模块和LSTM语句生成模块标注作为生成器,将LSTM语句特征提取模块和分类器标注作为判别器;S102所述CNN多标签分类模块提取到图片的信息,然后通过LSTM语句生成模块生成语句,生成的语句为所述生成器生成的假的语句;S103将生成的语句和真实的语句输入进行训练,所述LSTM语句特征提取模块对生成的语句和真实的语句进行训练,直至所述判别器无法判别真实语句和生成语句。进一步包括,S103中还包括通过所述判别器判别通过所述生成器生成的语句是否描述图片的方法,包括以下步骤:S201将所述生成器生成的句子记为Sfake,真实的句子记为Sreal,训练的一张图片记为Imatch,引入一张不匹配的图片记为Imismatch;S202生成语句Sfake和真实语句Sreal由LSTM语句特征提取模块进行特征提取,提取到的特征、Match图像特征、Mismatch图像特征进行特征结合,获得语句特征集合;S203所述分类器将语句特征集合中的语句特征进行真伪判别,判别生成的语句是否属于训练图像。进一步包括,S203中,分类器在判别生成的语句是否属于训练图像的过程中包括以下组合:SfakeImismatch无法通过判别器;SfakeImatch半通过判别器,获得scoresf;SrealImismatch半通过判别器,获得scoresw;SrealImatch通过判别器,获得scoresr。进一步包括,所述判别器通过训练识别真实语句,并且识别真实语句是否匹配图片,所述判别器的损失函数表示为:进一步包括,所述生成器利用多标签图像自动语句标注模型生成逼近真实语句的句子,所述生成器的损失函数表示为:本专利技术的有益效果是:1.本专利技术的方法克服了传统图像自动语句标注方法与结局表达能力不足的缺陷,构建了基于生成对抗网络的图像自动文本标注模型,该模型在深度学习中可以应用在众多领域中,可以应用在帮助残疾人理解周围环境,有效描述网络图片,方便检索;帮助快速生成新闻图片标注等。2.本专利技术接触GAN结构,改变了CNN-RNN图像自动语句标注中产生句子生硬、死板的问题,并且使得生成的句子更为准确、自然、多样性,生成的语句可以面对现实中更为复杂的景象,更加符合人类的语言表达方式标注图像,在实际中有着更为广泛的应用。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。本专利技术的具体实施方式由以下实施例及其附图详细给出。附图说明为了更清楚地说明本专利技术实施例技术中的技术方案,下面将对实施例技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是传统的声场对抗网络结构图;图2是LSTM单元结构图;图3是本专利技术基于生成对抗网络的图像自动语句标注结构图;图4是改进判别器构造的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本实施例是在传统的CNN-RNN方法的基础上引入生成对抗网络,提出了基于生成对抗网络的图像自动语句标注的算法,克服了传统图像自动语句标注中的问题。其中,参照图1所示,传统生成对抗网络结构由生成器G和判别器D组成。其中,生成器G接收一个噪声数据z作为输入,生成一个模拟数据G(z)。判别器D以真实数据x或生成数据G(z)作为输入,并辨别其输入是否来自于真实的数据分布pdala(x)。生成对抗模型训练判别器D以最大化其分辨真实数据与生成数据的准确率,同时训练生成器G来最小化判别器的准确率。这一目标通过求解以下鞍点问题达到。该模型可看成一个零本文档来自技高网
...
一种基于生成对抗网络的图像自动文本标注方法

【技术保护点】
一种基于生成对抗网络的图像自动文本标注方法,其特征在于,包括以下步骤:S 101将CNN多标签分类模块和LSTM语句生成模块标注作为生成器,将LSTM语句特征提取模块和分类器标注作为判别器;S 102所述CNN多标签分类模块提取到图片的信息,然后通过LSTM语句生成模块生成语句,生成的语句为所述生成器生成的假的语句;S 103将生成的语句和真实的语句输入进行训练,所述LSTM语句特征提取模块对生成的语句和真实的语句进行训练,直至所述判别器无法判别真实语句和生成语句。

【技术特征摘要】
1.一种基于生成对抗网络的图像自动文本标注方法,其特征在于,包括以下步骤:S101将CNN多标签分类模块和LSTM语句生成模块标注作为生成器,将LSTM语句特征提取模块和分类器标注作为判别器;S102所述CNN多标签分类模块提取到图片的信息,然后通过LSTM语句生成模块生成语句,生成的语句为所述生成器生成的假的语句;S103将生成的语句和真实的语句输入进行训练,所述LSTM语句特征提取模块对生成的语句和真实的语句进行训练,直至所述判别器无法判别真实语句和生成语句。2.根据权利要求1所述的基于生成对抗网络的图像自动文本标注方法,其特征在于,S103中还包括通过所述判别器判别通过所述生成器生成的语句是否描述图片的方法,包括以下步骤:S201将所述生成器生成的句子记为Sfake,真实的句子记为Sreal,训练的一张图片记为Imatch,引入一张不匹配的图片记为Imismatch;S202生成语句Sfake和真实语句Sreal由LSTM语句特征提取模块进行特征提取,提取到的特征、M...

【专利技术属性】
技术研发人员:胡伏原吕凡沈军宇孙钰李林燕李宏
申请(专利权)人:苏州科技大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1