The invention provides a training method for generating a natural language model describing the content of the image, and generates a natural language describing the content of the image by using the model. Among them, including the training method: A1) image training set image global features and local features as input to obtain the attention mechanism, including the integration of the global features and local features of the results; A2) the result of fusion and word length of the training set as the input of the network memory, training the attention mechanism and the length of memory network using loss function, obtain the attention mechanism and the weights of the memory length of the network weights; wherein, the loss function is known, the content of the image and the function of the I words before the conditional probability of one or more words when describing the natural language the content of the image in the I = 1,... IMAX.
【技术实现步骤摘要】
一种生成描述图像内容的自然语言的方法与系统
本专利技术涉及图像处理,尤其涉及对图像内容的描述。
技术介绍
图像自动描述指的是通过计算机自动生成自然语言语句以描述给定图像的内容。相较于图像分类、目标检测等基础任务,图像自动描述生成任务更复杂并且更具有挑战性,其对于图像内容理解具有重要意义。图像自动描述生成不仅需要计算机识别出一幅图像中存在的物体,还要识别出物体间的关系、行为活动等,并且使用自然语言描述识别出的语义信息。图像自动描述可以应用到许多场景,例如图像文本检索系统、儿童早教系统以及盲人导航等应用。迄今为止,研究者已经提出很多方法生成图像描述。根据描述的生成方式,可将这些方法分成三个类别:基于模板的方法、基于迁移的方法、以及基于神经网络的方法。基于模板的方法,首先使用分类器识别出图像的物体、属性以及关系,然后使用一个自然语言句子模板将识别出的物体、属性、和关系组成一个完整的句子。这类方法的优点是简单直观,缺点是受限于句子模板,不能生成语义丰富的句子。基于迁移的方法,首先利用基于内容的检索方法检索到待生成图像的相似图像,然后直接将相似图像的描述应用到待检索图像。这类方法的优点是可以生成语法准确的句子,缺点是生成的句子可能会偏离图像的真实内容。最近,受深度神经网络在图像识别任务和机器翻译上的成功应用,出现了许多基于神经网络的图像自动描述生成方法。这类方式是基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)和循环神经网络(RecurrentNeuralNetwork,RNN)框架。此类方法首先利用卷积神经网络编码图像,其次利用循环 ...
【技术保护点】
一种训练用于生成描述图像内容的自然语言的模型的方法,包括:A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax。
【技术特征摘要】
2016.12.29 CN 20161124411651.一种训练用于生成描述图像内容的自然语言的模型的方法,包括:A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax。2.根据权利要求1所述的方法,其中步骤A1)包括:在所述注意力机制执行融合的过程中,分别基于所述注意力机制的权值,为图像训练集中图像的全局特征以及局部特征中的每一个提供权重,以将执行加权后的结果作为所述融合的结果。3.根据权利要求2所述的方法,其中步骤A1)包括:采用所述注意力机制的权值,为图像训练集中图像的全局特征以及局部特征中的每一个提供权重,所述同时包含全局特征以及局部特征的结果表示为:其中,W,Wh,Wo,b是所述注意力机制的权值,是激活函数,h(t-1)是训练的t-1时刻所述长度记忆网络的隐藏层值,fk为所述全局特征以及所述局部特征的集合中的第k个特征,表示所述第k个特征与h(t-1)的相关度,表示针对所述第k个特征提供的权重,Gf表示所述全局特征,Lfj表示第j个局部特征,ψ(t)(I)是训练的t个时刻融合获得的同时包含全局特征以及局部特征的结果。4.根据权利要求1所述的方法,其中所述损失函数为:p(si|I,s0,s1,...,si-1)=softmax(wphi)si是描述所述图像训练集中图像I的内容的第i个单词,s0,...,si均为所述单词训练集中的单词,p(si|I,s0,s1,...,si-1)是已知描述图像I的内容、以及描述所述图像I的内容的自然语句中的前i-1个单词时第i个单词为si的条件概率,wp是所述长短记忆网络中输入到softmax的隐藏层的权值,hi是计算第i个单词时所述长短记忆网络的隐藏层值。5.根据权利要求1所述的方...
【专利技术属性】
技术研发人员:唐胜,李灵慧,张勇东,李锦涛,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。