一种生成描述图像内容的自然语言的方法与系统技术方案

技术编号:17734290 阅读:26 留言:0更新日期:2018-04-18 11:38
本发明专利技术提供了一种训练用于生成描述图像内容的自然语言的模型的方法,以及采用所述模型生成描述图像内容的自然语言的方法。其中,所述训练方法,包括:A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax。

A method and system for creating a natural language to describe the content of the image

The invention provides a training method for generating a natural language model describing the content of the image, and generates a natural language describing the content of the image by using the model. Among them, including the training method: A1) image training set image global features and local features as input to obtain the attention mechanism, including the integration of the global features and local features of the results; A2) the result of fusion and word length of the training set as the input of the network memory, training the attention mechanism and the length of memory network using loss function, obtain the attention mechanism and the weights of the memory length of the network weights; wherein, the loss function is known, the content of the image and the function of the I words before the conditional probability of one or more words when describing the natural language the content of the image in the I = 1,... IMAX.

【技术实现步骤摘要】
一种生成描述图像内容的自然语言的方法与系统
本专利技术涉及图像处理,尤其涉及对图像内容的描述。
技术介绍
图像自动描述指的是通过计算机自动生成自然语言语句以描述给定图像的内容。相较于图像分类、目标检测等基础任务,图像自动描述生成任务更复杂并且更具有挑战性,其对于图像内容理解具有重要意义。图像自动描述生成不仅需要计算机识别出一幅图像中存在的物体,还要识别出物体间的关系、行为活动等,并且使用自然语言描述识别出的语义信息。图像自动描述可以应用到许多场景,例如图像文本检索系统、儿童早教系统以及盲人导航等应用。迄今为止,研究者已经提出很多方法生成图像描述。根据描述的生成方式,可将这些方法分成三个类别:基于模板的方法、基于迁移的方法、以及基于神经网络的方法。基于模板的方法,首先使用分类器识别出图像的物体、属性以及关系,然后使用一个自然语言句子模板将识别出的物体、属性、和关系组成一个完整的句子。这类方法的优点是简单直观,缺点是受限于句子模板,不能生成语义丰富的句子。基于迁移的方法,首先利用基于内容的检索方法检索到待生成图像的相似图像,然后直接将相似图像的描述应用到待检索图像。这类方法的优点是可以生成语法准确的句子,缺点是生成的句子可能会偏离图像的真实内容。最近,受深度神经网络在图像识别任务和机器翻译上的成功应用,出现了许多基于神经网络的图像自动描述生成方法。这类方式是基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)和循环神经网络(RecurrentNeuralNetwork,RNN)框架。此类方法首先利用卷积神经网络编码图像,其次利用循环神经网络解码图像为自然语句。与前两类方法相比,受益于循环神经网络可以捕获动态时序信息、以及卷积神经网络可以捕获图像视觉信息的能力,基于神经网络的方法可以产生语义丰富且语法更准确的句子。然而,大多数被提出的基于卷积神经网络的方法仅仅使用了图像的全局特征,以至于图像的某些物体就识别不到。因此,当生成图像的文本描述时,就会导致图像中的某些物体信息丢失。例如,在图1(i)的(a)中,通过上述现有技术生成的句子中仅描述了“一组人站在被雪覆盖的斜坡上”而遗漏了这些人身穿的“滑雪板”,致使在描述所述图像时缺少对图像中人们正在执行的行为的信息描述。除此之外,由于图像的全局特征是一种较粗粒度的特征,这可能导致在生成描述句子时图像识别错误。例如,参考图1(ii)的(a),通过上述现有技术生成的句子中将放置在足球场上的物体识别为“足球”,这样的粗粒度描述使得图像中的“风筝”被错误地描述为“足球”。
技术实现思路
因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种训练用于生成描述图像内容的自然语言的模型的方法,包括:A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax。优选地,根据所述方法,其中步骤A1)包括:在所述注意力机制执行融合的过程中,分别基于所述注意力机制的权值,为图像训练集中图像的全局特征以及局部特征中的每一个提供权重,以将执行加权后的结果作为所述融合的结果。优选地,根据所述方法,其中步骤A1)包括:采用所述注意力机制的权值,为图像训练集中图像的全局特征以及局部特征中的每一个提供权重,所述同时包含全局特征以及局部特征的结果表示为:其中,W,Wh,Wo,b是所述注意力机制的权值,是激活函数,h(t-1)是训练的t-1时刻所述长度记忆网络的隐藏层值,fk为所述全局特征以及所述局部特征的集合中的第k个特征,表示所述第k个特征与h(t-1)的相关度,表示针对所述第k个特征提供的权重,Gf表示所述全局特征,Lfj表示第j个局部特征,ψ(t)(I)是训练的t个时刻融合获得的同时包含全局特征以及局部特征的结果。优选地,根据所述方法,其中所述损失函数为:p(si|I,s0,s1,...,si-1)=softmax(wphi)si是描述所述图像训练集中图像I的内容的第i个单词,s0,...,si均为所述单词训练集中的单词,p(si|I,s0,s1,...,si-1)是已知描述图像I的内容、以及描述所述图像I的内容的自然语句中的前i-1个单词时第i个单词为si的条件概率,wp是所述长短记忆网络中输入到softmax的隐藏层的权值,hi是计算第i个单词时所述长短记忆网络的隐藏层值。优选地,根据所述方法,其中步骤A2)包括:针对所述损失函数采用梯度下降法进行训练。优选地,根据所述方法,其中所述长短记忆网络包含多个LSTM网络层,所述多个LSTM网络层中的一个以所述融合的结果作为其输入,所述多个LSTM网络层中的一个以单词训练集作为其输入。以及,一种生成的模型生成描述图像内容的自然语言的方法,包括:B1)将待描述的测试图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;B2)将所述融合的结果作为长短记忆网络的输入,输出描述所述测试图像的自然语言;其中,所述注意力机制的权值、以及所述长短记忆网络的权值由前述任意一项所述方法确定。优选地,根据所述方法,其中步骤B2)包括:B2-1)将所述融合的结果以及已获得的前n个描述所述测试图像的单词中的至少一个作为长短记忆网络的输入,得到描述所述测试图像的第n+1个单词;B2-2)则依照所获得的各个单词的顺序输出描述所述测试图像的自然语言。优选地,根据所述方法,其中,步骤B2-1)包括:在尚未获得描述所述测试图像的单词时,将定义的开始符作为长短记忆网络的输入;步骤B2-2)包括:若得到的描述所述测试图像的单词同于定义的结束符,或者描述所述测试图像的单词的总数达到设置的上限,则依照所获得的各个单词的顺序输出描述所述测试图像的自然语言。优选地,根据所述方法,其中步骤B2-1)包括:根据所述长短记忆网络得到已知描述所述测试图像I的内容、以及描述所述图像I的内容的自然语句中的前i-1个单词时第i个单词为备选词si的条件概率p(si|I,s0,s1,...,si-1),将具有最大条件概率的备选词作为所述第i个单词。优选地,根据所述方法,其中步骤B2-2)包括:针对所获得的全部m个单词中的每一个选择针对所述单词具有最大条件概率的多个备选词,对全部m个单词进行排列组合以计算在所述组合形式下完整的自然语句为s0,s1,...,sm的概率:选择p(s0,s1,...,sm)最大的一种组合方式,依照s0,s1,...,sm的顺序作为所输出的自然语句。优选地,根据所述方法,其中所述待描述的测试图像的全局特征通过VGG16网络获得,并且所述待描述的测试图像的局部特征通过FasterR-CNN模型获得。以及,一种用于生成描述图像内容的自然语言的系统,包括:处理器、和存储装置,其中,所述存储装置用于存储计算机程序,所述计算机程序在被所述处理器执行时用于实现如权利要求1-1本文档来自技高网
...
一种生成描述图像内容的自然语言的方法与系统

【技术保护点】
一种训练用于生成描述图像内容的自然语言的模型的方法,包括:A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax。

【技术特征摘要】
2016.12.29 CN 20161124411651.一种训练用于生成描述图像内容的自然语言的模型的方法,包括:A1)将图像训练集中图像的全局特征以及局部特征作为注意力机制的输入,以获得同时包含全局特征以及局部特征的融合的结果;A2)将所述融合的结果和单词训练集作为长短记忆网络的输入,利用损失函数对所述注意力机制以及所述长短记忆网络进行训练,获得所述注意力机制的权值以及所述长短记忆网络的权值;其中,所述损失函数是已知图像的内容、以及描述所述图像内容的自然语句中前一个或多个单词时第i个单词的条件概率的函数,i=1,…imax。2.根据权利要求1所述的方法,其中步骤A1)包括:在所述注意力机制执行融合的过程中,分别基于所述注意力机制的权值,为图像训练集中图像的全局特征以及局部特征中的每一个提供权重,以将执行加权后的结果作为所述融合的结果。3.根据权利要求2所述的方法,其中步骤A1)包括:采用所述注意力机制的权值,为图像训练集中图像的全局特征以及局部特征中的每一个提供权重,所述同时包含全局特征以及局部特征的结果表示为:其中,W,Wh,Wo,b是所述注意力机制的权值,是激活函数,h(t-1)是训练的t-1时刻所述长度记忆网络的隐藏层值,fk为所述全局特征以及所述局部特征的集合中的第k个特征,表示所述第k个特征与h(t-1)的相关度,表示针对所述第k个特征提供的权重,Gf表示所述全局特征,Lfj表示第j个局部特征,ψ(t)(I)是训练的t个时刻融合获得的同时包含全局特征以及局部特征的结果。4.根据权利要求1所述的方法,其中所述损失函数为:p(si|I,s0,s1,...,si-1)=softmax(wphi)si是描述所述图像训练集中图像I的内容的第i个单词,s0,...,si均为所述单词训练集中的单词,p(si|I,s0,s1,...,si-1)是已知描述图像I的内容、以及描述所述图像I的内容的自然语句中的前i-1个单词时第i个单词为si的条件概率,wp是所述长短记忆网络中输入到softmax的隐藏层的权值,hi是计算第i个单词时所述长短记忆网络的隐藏层值。5.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:唐胜李灵慧张勇东李锦涛
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1