基于无监督的概念到句子的生成对抗网络图像描述算法制造技术

技术编号:29584600 阅读:19 留言:0更新日期:2021-08-06 19:43
基于无监督的概念到句子的生成对抗网络图像描述算法涉及图像描述技术领域,解决了现有不能在没有成对数据集的情况下描述图像的问题,具体为:生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、关系概念和属性概念,拼接两语义相关性得到语义关系信息,生成器将语义关系信息解码成句子。本发明专利技术利用一些预训练的目标检测模型及分类模型提取图像中包含的离散的概念信息,将这一模态的离散概念转换为同一模态的图像描述语句,实现了在没有成对数据集的情况下描述图像。

【技术实现步骤摘要】
基于无监督的概念到句子的生成对抗网络图像描述算法
本专利技术涉及图像描述
,具体涉及基于无监督的概念到句子的生成对抗网络图像描述算法。
技术介绍
图像描述算法是近几年前沿的一个多模态研究方向,该任务目的是将一幅图像自动地生成一段描述该图像的文字。图像描述算法不仅需要计算机视觉方向的算法来提取图像特征,而且还需要自然语言处理相关的算法将这些表示图像的特征转换成文字。图像描述算法应用领域较广,其可以应用到机器人、跨模态搜索以及盲人导航等方面。随着深度学习的发展,大量的学者开展了图像描述方面的研究,促进了图像描述算法在近几年获得了非常大的性能提升。传统的图像描述算法通常是指基于有监督训练的模型。此类模型大多采用编码器-解码器结构,其中编码器是卷积神经网络CNN,而解码器是循环神经网络RNN。有监督训练时使用MicrosoftCOCO数据集,该数据集包含有113287张图像,每张图像对应五个人工标注的英文描述语句。通过使用该数据集,基于有监督的图像描述算法取得了接近于人类对于图像理解的能力。但是,基于有监督的图像描述算法严重依赖成对的图像-句子数据集,且MSCOCO数据集只有英文的标注语句。而世界上语言种类较多,对每一种语言都做图像-句子的标注是耗费时间、精力和金钱的一项工作。因此,无监督的图像描述算法将会为多语言图像描述打下坚实的基础。目前已有的无监督图像描述模型主要采用GAN网络,生成器和判别器分别是一个LSTM。模型先利用预训练好的卷积神经网络Inception-V4提取图像的视觉特征,并将视觉特征输入到生成器中。生成器LSTM将视觉特征转换为文字,并由判别器LSTM来判断每个单词的真假。这样经过一次次地博弈,最终生成器能够生成语法和目标都正确的句子。但是该类方法单纯使用图像的视觉特征,而无监督图像描述算法很难在没有对应标注语句的情况下推断出图像中目标物体间的关系,因此加入图像中物体间的关系及属性等语义信息将会有助于提高算法对图像的理解。综上可知,由于目前大多数的图像描述算法依赖于成对的图像-句子数据集MicrosoftCOCO,而这种成对的图像-句子数据集需要大量的人力物力才能标注出来。因此,如何实现在没有成对数据集的情况下描述图像是一个难题。另外,图像描述是一个跨模态的任务,如何减小不同模态数据间的差距也是一个重要难点。因此,亟需解决如何在不使用成对图像-句子数据集的情况下,利用一些预训练的目标检测模型及分类模型提取图像中包含的概念信息,并且通过CGAN网络将这一模态的离散概念转换为同一模态的图像描述语句。
技术实现思路
为了解决上述问题,本专利技术提供基于无监督的概念到句子的生成对抗网络图像描述算法。本专利技术为解决技术问题所采用的技术方案如下:基于无监督的概念到句子的生成对抗网络图像描述算法,包括如下步骤:生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、关系概念和属性概念,拼接目标与关系之间的语义相关性和目标与属性之间的语义相关性得到语义关系信息,将语义关系信息解码成句子。基于无监督的概念到句子的生成对抗网络图像描述算法,所述算法的模型包括所述生成器Gθ和判别器所述判别器能够判别生成器Gθ得到的句子是否来自句子语料库,如果判别器认为句子不是来自句子语料库,则生成器Gθ根据损失函数更新生成器Gθ的参数并再次生成句子给判别器判断,直至判别器认为该句子来自句子语料库。基于无监督的概念到句子的生成对抗网络图像描述算法,所述算法训练的步骤为:步骤一、用随机的权重θ初始化生成器Gθ,用判别器的参数初始化判别器步骤二、在训练集S上用最大似然估计预训练生成器Gθ;所述训练集S为句子语料库;步骤三、用生成器Gθ生成若干句子表示生成器生成的长度为1至L的句子;步骤四、利用步骤三中生成器Gθ生成的句子预训练步骤五、用Gθ生成若干句子计算句子为真的概率p,根据句子评估器模块Q'计算主观评价得分s,根据p和s计算奖励值,再根据奖励值更新生成器Gθ的权重θ,得到更新的生成器Gθ;步骤六、判别器判断生成器Gθ生成的句子是否为真,若为真,进行步骤七;若不为真,则以更新权重θ后的生成器Gθ返回步骤五;步骤七、生成器Gθ生成句子根据更新判别器的参数即得到更新的判别器步骤八、判断生成器Gθ和判别器是否均收敛,若均收敛则,训练完成;否则返回步骤七。本专利技术的有益效果是:本专利技术基于无监督的概念到句子的生成对抗网络图像描述算法能够在不使用成对图像-句子数据集的情况下,对测试集中的图片做出语法和语义正确的文字描述。本专利技术的图像描述算法不需要大量的人力物力标注,在不使用成对图像-句子数据集的情况下,利用一些预训练的目标检测模型及分类模型提取图像中包含的离散的概念信息,将这一模态的离散概念转换为同一模态的图像描述语句。本专利技术的图像描述算法实现了在没有成对数据集的情况下描述图像,减小了不同模态数据间的差距。附图说明图1为本专利技术基于无监督的概念到句子的生成对抗网络图像描述算法的CSGAN框架图图2为本专利技术基于无监督的概念到句子的生成对抗网络图像描述算法的双向语义编码器框架图。图3为本专利技术基于无监督的概念到句子的生成对抗网络图像描述算法的判别器结构图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可以采用其他不同于在此描述的其他方式来实施,因此,本专利技术的保护范围并不受下面公开的具体实施例的限制。基于无监督的概念到句子的生成对抗网络图像描述算法(ConcepttoSentenceGAN,简称CSGAN),算法具体为:(概念提取器)提取图像中语义概念并分类成离散概念,包括目标概念(即表示目标的概念)、关系概念(即表示关系的概念)和属性概念(即表示属性的概念),离散概念即离散的语义概念,为单词。生成器根据离散概念计算出其中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算出其中目标概念与属性概念之间的语义相关性,生成器拼接目标概念与关系概念之间的语义相关性和目标概念与属性概念之间的语义相关性得到语义关系信息,生成器将语义关系信息解码成句子。对于图像中语义概念的提取,本专利技术采用预训练好的FasterR-CNN网络提取每幅图像中包含的目标,利用多标签分类器对不同目标间存在的关系进行提取,并利用多标签分类器对每个目标包含的属性进行提取。这样便能提取出一幅图像中包含的目标、关系和属性概念。具体的,使用在VisualGenome数据集上预训练过的FasterR-CNN对图片进行目标提取,采用MOTIFS作为关系提取器,最后额外增加一个分类器作为属性提取器。对于句子语料中语义概念的本文档来自技高网
...

【技术保护点】
1.基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,包括如下步骤:/n生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、关系概念和属性概念,拼接目标与关系之间的语义相关性和目标与属性之间的语义相关性得到语义关系信息,将语义关系信息解码成句子。/n

【技术特征摘要】
1.基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,包括如下步骤:
生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、关系概念和属性概念,拼接目标与关系之间的语义相关性和目标与属性之间的语义相关性得到语义关系信息,将语义关系信息解码成句子。


2.如权利要求1所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述生成器采用多头注意力机制计算目标概念与关系概念之间的语义相关性和计算目标概念与属性概念之间的语义相关性。


3.如权利要求1所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述生成器包括一个目标-关系子编码器ROR、一个目标-属性子编码器ROA和一个基于注意力机制的解码器,所述目标-关系子编码器能够根据离散概念计算出离散概念中目标与关系之间的语义相关性,目标-属性子编码器能够离散概念计算出离散概念中目标与属性之间的语义相关性,解码器能够将语义关系信息解码成句子。


4.如权利要求3所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述目标-关系子编码器ROR和目标-属性子编码器ROA表示为:
ROR=MultiHead(SR,SO,SO)(4)
ROA=MultiHead(SO,SA,SA)(5)



Mβ=BRβ,β∈{OA,OR}(7)
其中,SO表示从一幅图像或句子中提取到的一组目标概念;SR表示从一幅图像或句子中提取到的一组关系概念;SR作为查询矩阵Q,公式(4)中第一个SO作为键矩阵,公式(4)中第二个SO作为值矩阵,表示ROR为NR×e的向量,通过ROR能够获取一组目标概念和关系概念的关系信息;SA表示从一幅图像或句子中提取的一组属性概念,SO作为查询矩阵,公式(5)中第一个SA作为键矩阵,公式(5)中第二个SA作为值矩阵,表示ROR是维度为NO×e的向量,NR、NO、e均为正整数,通过ROA能够获取一组目标概念和属性概念的关系信息;表示Rβ的可学习参数,表示是维度为r'×da的向量,表示激活函数tanh的可学习参数,表示是维度为da×r'的向量,表示Rβ的转置矩阵,Mβ∈Rr'×e表示Mβ是维度为r'×e的向量,MOA表示目标概念与属性概念之间的语义相关性,MOR表示目标概念与关系概念之间的语义相关性,r'、da均为正整数。


5.如权利要求4所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述解码器为LSTM解码器,LSTM解码器在r’个目标概念与关系概念之间的语义相关性和r’个目标概念与属性概念之间的语义相关性上生成注意力分布为:



其中,WM表示Mβ的可学习参数,Wh表示隐藏状态hT的可学习参数,wα表示tanh函数的可学习参数,表示WM是维度为da×e的向量,表示Wh是维度为da×d的向量,表示wα是维度为da的向量,d为正整数,是矩阵相加,αT∈Rn'表示αT是维度为n'的向量,注意力关系向量为:
rT=αTM(9)
rT∈Re表示rT维度为e;
T时刻输出的单词为:
yT=softmax(Wp,rrT+Wp,hhT)(10)
其中,Wp,r∈R|D'|×e表示Wp,r是维度为|D'|×e的向量,|D'|表示语义概念词典D'的单词数量,Wp,r表示rT的可学习参数,Wp,h∈R|D'|×e表示Wp,h是维度为|D'|×d的向量,Wp,h表示隐藏状态hT的可学习参数。


6.如权利要求1至5中任意一项所述的基于无监督的概念到句子...

【专利技术属性】
技术研发人员:李丽香赵珊珊党中恺田艳昭彭海朋
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1