【技术实现步骤摘要】
基于无监督的概念到句子的生成对抗网络图像描述算法
本专利技术涉及图像描述
,具体涉及基于无监督的概念到句子的生成对抗网络图像描述算法。
技术介绍
图像描述算法是近几年前沿的一个多模态研究方向,该任务目的是将一幅图像自动地生成一段描述该图像的文字。图像描述算法不仅需要计算机视觉方向的算法来提取图像特征,而且还需要自然语言处理相关的算法将这些表示图像的特征转换成文字。图像描述算法应用领域较广,其可以应用到机器人、跨模态搜索以及盲人导航等方面。随着深度学习的发展,大量的学者开展了图像描述方面的研究,促进了图像描述算法在近几年获得了非常大的性能提升。传统的图像描述算法通常是指基于有监督训练的模型。此类模型大多采用编码器-解码器结构,其中编码器是卷积神经网络CNN,而解码器是循环神经网络RNN。有监督训练时使用MicrosoftCOCO数据集,该数据集包含有113287张图像,每张图像对应五个人工标注的英文描述语句。通过使用该数据集,基于有监督的图像描述算法取得了接近于人类对于图像理解的能力。但是,基于有监督的图像描述算法严重依赖成对的图像-句子数据集,且MSCOCO数据集只有英文的标注语句。而世界上语言种类较多,对每一种语言都做图像-句子的标注是耗费时间、精力和金钱的一项工作。因此,无监督的图像描述算法将会为多语言图像描述打下坚实的基础。目前已有的无监督图像描述模型主要采用GAN网络,生成器和判别器分别是一个LSTM。模型先利用预训练好的卷积神经网络Inception-V4提取图像的视觉特征,并将视觉特 ...
【技术保护点】
1.基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,包括如下步骤:/n生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、关系概念和属性概念,拼接目标与关系之间的语义相关性和目标与属性之间的语义相关性得到语义关系信息,将语义关系信息解码成句子。/n
【技术特征摘要】
1.基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,包括如下步骤:
生成器根据离散概念计算离散概念中目标概念与关系概念之间的语义相关性,生成器根据离散概念计算离散概念中目标概念与属性概念之间的语义相关性,所述离散概念为通过提取图像中语义概念得到,离散概念包括目标概念、关系概念和属性概念,拼接目标与关系之间的语义相关性和目标与属性之间的语义相关性得到语义关系信息,将语义关系信息解码成句子。
2.如权利要求1所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述生成器采用多头注意力机制计算目标概念与关系概念之间的语义相关性和计算目标概念与属性概念之间的语义相关性。
3.如权利要求1所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述生成器包括一个目标-关系子编码器ROR、一个目标-属性子编码器ROA和一个基于注意力机制的解码器,所述目标-关系子编码器能够根据离散概念计算出离散概念中目标与关系之间的语义相关性,目标-属性子编码器能够离散概念计算出离散概念中目标与属性之间的语义相关性,解码器能够将语义关系信息解码成句子。
4.如权利要求3所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述目标-关系子编码器ROR和目标-属性子编码器ROA表示为:
ROR=MultiHead(SR,SO,SO)(4)
ROA=MultiHead(SO,SA,SA)(5)
Mβ=BRβ,β∈{OA,OR}(7)
其中,SO表示从一幅图像或句子中提取到的一组目标概念;SR表示从一幅图像或句子中提取到的一组关系概念;SR作为查询矩阵Q,公式(4)中第一个SO作为键矩阵,公式(4)中第二个SO作为值矩阵,表示ROR为NR×e的向量,通过ROR能够获取一组目标概念和关系概念的关系信息;SA表示从一幅图像或句子中提取的一组属性概念,SO作为查询矩阵,公式(5)中第一个SA作为键矩阵,公式(5)中第二个SA作为值矩阵,表示ROR是维度为NO×e的向量,NR、NO、e均为正整数,通过ROA能够获取一组目标概念和属性概念的关系信息;表示Rβ的可学习参数,表示是维度为r'×da的向量,表示激活函数tanh的可学习参数,表示是维度为da×r'的向量,表示Rβ的转置矩阵,Mβ∈Rr'×e表示Mβ是维度为r'×e的向量,MOA表示目标概念与属性概念之间的语义相关性,MOR表示目标概念与关系概念之间的语义相关性,r'、da均为正整数。
5.如权利要求4所述的基于无监督的概念到句子的生成对抗网络图像描述算法,其特征在于,所述解码器为LSTM解码器,LSTM解码器在r’个目标概念与关系概念之间的语义相关性和r’个目标概念与属性概念之间的语义相关性上生成注意力分布为:
其中,WM表示Mβ的可学习参数,Wh表示隐藏状态hT的可学习参数,wα表示tanh函数的可学习参数,表示WM是维度为da×e的向量,表示Wh是维度为da×d的向量,表示wα是维度为da的向量,d为正整数,是矩阵相加,αT∈Rn'表示αT是维度为n'的向量,注意力关系向量为:
rT=αTM(9)
rT∈Re表示rT维度为e;
T时刻输出的单词为:
yT=softmax(Wp,rrT+Wp,hhT)(10)
其中,Wp,r∈R|D'|×e表示Wp,r是维度为|D'|×e的向量,|D'|表示语义概念词典D'的单词数量,Wp,r表示rT的可学习参数,Wp,h∈R|D'|×e表示Wp,h是维度为|D'|×d的向量,Wp,h表示隐藏状态hT的可学习参数。
6.如权利要求1至5中任意一项所述的基于无监督的概念到句子...
【专利技术属性】
技术研发人员:李丽香,赵珊珊,党中恺,田艳昭,彭海朋,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。