一种图说生成方法及装置制造方法及图纸

技术编号:19178886 阅读:36 留言:0更新日期:2018-10-17 00:39
本发明专利技术提供了一种图说生成方法及装置。该方法包括:采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征和局部特征;对图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征;将训练集的图像的全局特征和局部特征以及描述语句特征输入至递归神经网络,对递归神经网络进行训练;根据递归神经网络的输出构建损失函数,根据损失函数对递归神经网络的参数进行优化;采用预先训练的卷积神经网络提取目标图像的全局特征和局部特征,将目标图像的全局特征和局部特征输入至递归神经网络,生成与目标图像对应的描述语句。本发明专利技术实施例充分考虑图像的全局特征和局部特征,提高了图说生成的精度。

Method and device for generating graph theory

The invention provides a graphic generation method and device. The method includes: extracting the global and local features of the training set images in a graph-text database by using a pre-trained convolutional neural network; encoding the corresponding descriptive sentences of the training set images in a graph-text database to obtain the descriptive sentence features; encoding the global and local features of the training set images and descriptive language of the training set images. Sentence features are input into recurrent neural network to train recurrent neural network; loss function is constructed according to the output of recurrent neural network; parameters of recurrent neural network are optimized according to loss function; global and local features of target image are extracted by convolution neural network with pre-training, and target image is obtained. Global and local features are input into the recurrent neural network to generate descriptive statements corresponding to the target image. The embodiment of the invention fully considers the global and local features of the image, and improves the accuracy of the graph generation.

【技术实现步骤摘要】
一种图说生成方法及装置
本专利技术涉及多模态融合
,具体涉及一种图说生成方法及装置。
技术介绍
随着人工智能从概念到逐渐进入人类的生活,并逐渐成为人类生活中的一部分,计算机视觉同语音、自然语言等其他模态的信息融合技术广泛的被研究和应用。随着深度学习在计算机视觉、自然语言处理以及语音信息处理等领域取得巨大的突破,为了实现根据图像自动生成描述语句(描述语句中包括多个单词),研究设计了图说生成方法。现有的图说生成方法分为两大类,一类是基于检索的图说生成方法,另一类是基于深度神经网络的图说生成方法。现有的一种基于检索的图说生成方法中,给定一张待描述的图像,在图文数据库中检索出相似的图像,然后根据对应的描述语句生成新的语句来描述该图像。该方法产生的语句缺乏变化,而且描述语句和图像之间存在较大的偏差,图说生成的精度较低。现有的一种基于神经网络的图说生成方法中,利用卷积神经网络提取图像全局特征,利用递归神经网络对图像特征和描述语句特征进行融合,最后生成图说。该方法根据图像全局特征和描述语句特征生成图说,这样并不能挖掘出描述语句中每一个单词和图像的局部区域的映射关系,导致图说生成的精度较低。另本文档来自技高网...

【技术保护点】
1.一种图说生成方法,其特征在于,包括:采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征和局部特征;对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征;将所述训练集的图像的全局特征和局部特征以及所述描述语句特征输入至递归神经网络,对所述递归神经网络进行训练;根据所述递归神经网络的输出构建损失函数,根据所述损失函数对所述递归神经网络的参数进行优化;采用所述预先训练的卷积神经网络提取目标图像的全局特征和局部特征,将所述目标图像的全局特征和局部特征输入至所述递归神经网络,生成与所述目标图像对应的描述语句。

【技术特征摘要】
2017.03.28 CN 201710191737X1.一种图说生成方法,其特征在于,包括:采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征和局部特征;对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征;将所述训练集的图像的全局特征和局部特征以及所述描述语句特征输入至递归神经网络,对所述递归神经网络进行训练;根据所述递归神经网络的输出构建损失函数,根据所述损失函数对所述递归神经网络的参数进行优化;采用所述预先训练的卷积神经网络提取目标图像的全局特征和局部特征,将所述目标图像的全局特征和局部特征输入至所述递归神经网络,生成与所述目标图像对应的描述语句。2.根据权利要求1所述的方法,其特征在于,所述采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征和局部特征,包括:根据如下公式提取图文数据库中训练集的图像的全局特征:v=WI·[Fc(I)]+bI其中,v表示图像I的全局特征;WI表示权重矩阵,bI表示偏置;Fc(I)表示所述卷积神经网络对所述图像I处理后全连接层的输出;根据如下公式提取图文数据库中训练集的图像的局部特征:vl={vl1,vl2,…,vlC}=flatten(Conv(I))其中,vl表示所述图像I的局部特征的集合;vli表示所述图像I的局部特征;C代表所述图像I的局部特征的个数;Conv(I)表示所述卷积神经网络对所述图像I处理后卷积层的输出,flatten()表示扁平化操作。3.根据权利要求1所述的方法,其特征在于,对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征,包括:根据如下公式获取描述语句特征:st=Ws·wt,t∈{1,2,…,T}其中,st表示图像I的描述语句特征;Ws表示权重矩阵;所述图像I的描述语句S=(w1,w2,…,wT),T为描述语句中单词的个数;表示该描述语句的第i个单词,N0为所述图文数据库中的单词总数;wi为单词one-hot向量。4.根据权利要求1所述的方法,其特征在于,所述递归神经网络为长短时记忆递归神经网络LSTM。5.根据权利要求4所述的方法,其特征在于,所述长短时记忆递归神经网络LSTM为加门反馈长短时记忆递归神经网络GF-LSTM。6.根据权利要求5所述的方法,其特征在于,所述将所述训练集的图像的全局特征和局部特征以及所述描述语句特征输入至递归神经网络,包括:采用门控机制将所述训练集的图像的全局特征输入至递归神经网络,根据如下公式获取每个时刻输入至所述递归神经网络的全局特征:vt=gtv其中,所述vt表示t时刻输入至所述递归神经网络的全局特征;gt表示t时刻的门,0<gt<1;v表示图像I的全局特征;采用注意力机制将所述训练集的图像的局部特征输入至递归神经网络,根据如下公式获取每个时刻输入至所述递归神经网络的局部特征:其中,表示t时刻输入至所述递归神经网络的局部特征;vl表示图像I的局部特征的集合;αti表示t时刻关注所述图像I的i区域的概率,vli表示所述图像I的局部特征。7.根据权利要求6所述的方法,其特征在于,所述长短时记忆递归神经网络LSTM为两层的加门反馈长短时记忆递归神经网络GF-LSTM;具体地,其中,表示t-1时刻第二层加门反馈长短时记忆递归神经网络GF-LSTM的隐层状态,表示权重向量,bg表示偏置;其中,和Ua表示权重向量;softmax()表示归一操作。8.根据权利要求6所述的方法,其特征在于,所述根据所述递归神经网络的输出构建损失函数,包括:对所述递归神经网络的输出进行归一操作;根据归一操作结果构建损失函数;所述损失函数的公式为:其中,P(S|I)表示针对图像I产生描述语句S的条件概率,λθ||θ||2是对所述递归神经网络所有参数θ的正则约束,是对所述注意力机制的概率和为1的约束。9.根据权利要求1所述的方法,其特征在于,所述根据所述损失函数对所述递归神经网络的参数进行优化,包括:根据所述损失函数采用反时传播BPTT算法对所述递归神经网络的参数进行优化。10.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取生成的目标图像对应的描述语句与参考描述语句的相关性。11.一种图说生成装置,其特征在于,包括:图像特征提取单元,用于采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征和局部特...

【专利技术属性】
技术研发人员:黄欢赵刚
申请(专利权)人:上海荆虹电子科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1