可生成依存树的图像描述生成方法和装置制造方法及图纸

技术编号:25710016 阅读:33 留言:0更新日期:2020-09-23 02:56
一种可生成依存树的图像描述生成方法,所述方法包括对图像描述文本的依存树的三叉树进行建模,从输入的图像中提取出图像特征,然后基于所述图像特征生成所述三叉树的根节点,再生成所述根节点的三个孩子节点,以此类推,递归地生成每一个节点的三个孩子节点,由此生成三叉树,再将生成的三叉树转化成图像描述文本的依存树;较佳地,通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。本发明专利技术中,节点生成的依赖路径较序列模型更短,且在生成过程中可优先生成重要的单词,生成模式与人类更为接近,达到了高于基准模型的表现。

【技术实现步骤摘要】
可生成依存树的图像描述生成方法和装置
本专利技术涉及人工智能领域,特别是涉及一种可生成依存树的图像描述生成方法和装置。
技术介绍
根据给定的图像自动生成描述该图像内容的自然语言文本是人工智能领域的一个基本任务。现有的基于深度学习的方法将文本当成单词序列来逐一生成,没有考虑到自然语言文本内在的层次结构,仅能生成序列状的文本。以上
技术介绍
内容的公开仅用于辅助理解本专利技术的专利技术构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述
技术介绍
不应当用于评价本申请的新颖性和创造性。
技术实现思路
本专利技术的主要目的在于克服上述技术缺陷,提供一种可生成依存树的图像描述生成方法和装置。为实现上述目的,本专利技术采用以下技术方案:一种可生成依存树的图像描述生成方法,所述方法包括对图像描述文本的依存树的三叉树进行建模,从输入的图像中提取出图像特征,然后基于所述图像特征生成所述三叉树的根节点,再生成所述根节点的三个孩子节点,以此类推,递归地生成每一个节点的三个孩子节点,由此生成三叉树,再将生成的三叉树转化成图像描述文本的依存树;优选地,通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。进一步地:所述建模基于树状解码器,其中采用卷积神经网络CNN提取出图像的全局特征和局部特征k为局部特征的数量,将图像全局特征v0定义为所述三叉树的根节点的父节点,并采用MD-LSTM处理所述三叉树中的所述父节点和三个孩子节点之间的关系。生成三叉树的方法包括:设不同节点的孩子节点在给定它们的祖先节点时条件独立,而同一父节点的不同孩子节点相互关联的,根据条件概率其中A(t)和L(t)分别表示节点t的祖先节点和左兄弟节点;对于没有左兄弟节点的节点,其生成仅依靠其父节点;而三叉树的根节点的生成则依靠全局图像特征v0;父节点和左兄弟节点的条件信息用两个固定长度的隐状态向量ha和hl分别表示;节点的隐状态由其父节点和左兄弟节点的输入xa、xl及它们的隐状态ha、hl通过非线性函数f得到hi=f(ha,hl,xa,xl)(2)其中i表示节点生成的序号;采用维度为2的MD-LSTM对f进行建模;每个节点的预测使用其父节点和左兄弟节点的信息,向三叉树中每个节点到其孩子节点之间添加一条有向边,向每个节点到其右兄弟节点之间添加一条有向边,以由此得到的有向图拓扑排序作为节点的生成顺序。所述拓扑排序通过深度优先搜索DFS或广度优先搜索BFS得到。所述三叉树的训练过程展开根据如下公式:x-1=Wvv0(4)xi=WeSi(6)hi=f(ha(i),hl(i),xa(i),xl(i))(7)pi=softmax(Whhi)(8)其中下标i表示该节点在拓扑排序中的序号,a(i)和l(i)分别表示节点ti的父节点和左兄弟节点的序号;优选地,定义三叉树根节点的父节点的序号为-1,如果ti没有左兄弟节点,定义l(i)=-2;表示ti节点单词的独热向量,v为单词表;和分别为可学习词嵌入矩阵和图像嵌入矩阵,为可学习矩阵,通过hi预测单词表中每个单词的概率pi,dh为隐状态维度。使用的损失函数L为每一步的正确单词的负对数似然之和,如下采用维度为2的MD-LSTM对f进行建模,具体包括:MD-LSTM通过门控函数对节点信息的继承与节点状态的更新,具体方式如下:i=σ(Wixaxa+Wihaha+Wixlxl+Wihlhl)(10)o=σ(Woxaxa+Wohaha+Woxlxl+Wohlhl)(11)g=tanh(Wgxaxa+Wghaha+Wgxlxl+Wghlhl)(12)fa=σ(Wfxaxa+Wfhaha)(13)fl=σ(Wfxlxl+Wfhlhl)(14)c=fa⊙ca+fl⊙cl+i⊙g(15)h=o⊙c(16)其中i、o、g分别为输入门、输出门和单元门,ca、cl、ha和hl分别父节点和左兄弟节点的记忆状态和隐状态,fa和fl为对应的遗忘门,⊙表示按元素乘,σ(·)和tanh(·)分别表示非线性函数sigmoid函数和双曲正切函数tanh,W表示可学习矩阵,节点的记忆状态和隐状态分别由两个向量c和h表示。所述注意力模块通过动态计算不同局部图像特征的权重可以有效地提升模型的表现,在生成节点时,同时考虑其父节点和左兄弟节点的隐状态ha和hl,ej=Watanh(Wavvj+Waaha+Walhl)(17)αj=softmax(ej+bα)(18)其中W为可学习矩阵,vj表示第j个局部图像特征,αj表示其权重,j=1...k,bα为可学习偏置;将得到各个局部图像的加权平均值z整合到MD-LSTM中单元门g的更新式(12)当中g=tanh(Wgxaxa+Wghaha+Wgxlxl+Wghlhl+Wgzz)(20)。其中,以给定节点生成其三个孩子节点为三叉树的一个生成步骤,在一个生成步骤中,依次生成该节点的左孩子、中孩子和右孩子节点,可通过父节点生成左孩子节点,然后通过父节点和左孩子节点生成中孩子节点,最后再通过父节点和中孩子节点生成右孩子节点;在生成整棵树时,先通过输入图像的特征生成根节点,然后对根节点执行生成步骤,得到根节点的三个孩子节点,此时这三个孩子节点均为叶子节点,然后递归地对于树中的每个非#EOB#的叶子节点执行所述生成步骤,直到这棵树中所有的叶子节点均为#EOB#节点或节点数量已达到设定的最大值。优选地,预测当前节点生成每个单词的概率pi,以如下两种采样方式之一从中选择出合适的单词:贪婪搜索,从预测的pi中选择概率最大的单词;集束搜索,维持全局集束规模的kg个当前概率最大的候选三叉树,仅对这些候选三叉树进行向后扩展;扩展时对候选树所有非#EOB#叶子节点执行生成步骤,采用序列的集束搜索方式进行,从而得到以该节点为根的局部集束规模kl个概率最大的子树;对于候选树的不同非#EOB#叶子节点的扩展子树,选择不同的组合方式放入备选集合;当所有候选执行都扩展过一轮之后,从备选中再次选择概率最大的前kg个三叉树放入候选集合,进行下一轮扩展。一种可生成依存树的图像描述生成装置,包括计算机可读存储介质和处理器,所述计算机可读存储介质存储有可执行程序,其特征在于,所述可执行程序由所述处理器执行时,实现所述的图像描述生成方法。本专利技术具有如下有益效果:本专利技术提出了一种可生成依存树的图像描述生成方法和装置,该方法是一种基于树状解码器的图像描述生成方法(下文简称ITT),可通过给定的图像直接生成描述文本的依存树。ITT对图像描述文本的依存树的三叉树进行建模。ITT首先使用CNN提取出图像的特征,然后基于该图像特征生成三叉树的根节点,由此生成根节点的三个孩子节点,以此类推,递归地生成每一个节点本文档来自技高网...

【技术保护点】
1.一种可生成依存树的图像描述生成方法,其特征在于,所述方法包括对图像描述文本的依存树的三叉树进行建模,从输入的图像中提取出图像特征,然后基于所述图像特征生成所述三叉树的根节点,再生成所述根节点的三个孩子节点,以此类推,递归地生成每一个节点的三个孩子节点,由此生成三叉树,再将生成的三叉树转化成图像描述文本的依存树;优选地,通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。/n

【技术特征摘要】
1.一种可生成依存树的图像描述生成方法,其特征在于,所述方法包括对图像描述文本的依存树的三叉树进行建模,从输入的图像中提取出图像特征,然后基于所述图像特征生成所述三叉树的根节点,再生成所述根节点的三个孩子节点,以此类推,递归地生成每一个节点的三个孩子节点,由此生成三叉树,再将生成的三叉树转化成图像描述文本的依存树;优选地,通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。


2.如权利要求1所述的图像描述生成方法,其特征在于,所述建模基于树状解码器,其中采用卷积神经网络CNN提取出图像的全局特征和局部特征V={v1,…,vk},k为局部特征的数量,将图像全局特征v0定义为所述三叉树的根节点的父节点,并采用MD-LSTM处理所述三叉树中的所述父节点和三个孩子节点之间的关系。


3.如权利要求1至2任一项所述的图像描述生成方法,其特征在于,生成三叉树的方法包括:
设不同节点的孩子节点在给定它们的祖先节点时条件独立,而同一父节点的不同孩子节点相互关联的,根据条件概率



其中A(t)和L(t)分别表示节点t的祖先节点和左兄弟节点;对于没有左兄弟节点的节点,其生成仅依靠其父节点;而三叉树的根节点的生成则依靠全局图像特征v0;父节点和左兄弟节点的条件信息用两个固定长度的隐状态向量ha和hl分别表示;节点的隐状态由其父节点和左兄弟节点的输入xa、xl及它们的隐状态ha、hl通过非线性函数f得到
hi=f(ha,hl,xa,xl)(2)
其中i表示节点生成的序号;采用维度为2的MD-LSTM对f进行建模;
每个节点的预测使用其父节点和左兄弟节点的信息,向三叉树中每个节点到其孩子节点之间添加一条有向边,向每个节点到其右兄弟节点之间添加一条有向边,以由此得到的有向图拓扑排序作为节点的生成顺序。


4.如权利要求3所述的图像描述生成方法,其特征在于,所述拓扑排序通过深度优先搜索DFS或广度优先搜索BFS得到。


5.如权利要求3或4所述的图像描述生成方法,其特征在于,所述三叉树的训练过程展开根据如下公式:



x-1=Wvv0(4)



xi=WeSi(6)
hi=f(ha(i),hl(i),xa(i),xl(i))(7)
pi=softmax(Whhi)(8)
其中下标i表示该节点在拓扑排序中的序号,a(i)和l(i)分别表示节点ti的父节点和左兄弟节点的序号;优选地,定义三叉树根节点的父节点的序号为-1,如果ti没有左兄弟节点,定义l(i)=-2;表示ti节点单词的独热向量,为单词表;和分别为可学习词嵌入矩阵和图像嵌入矩阵,为可学习矩阵,通过hi预测单词表中每个单词的概率pi,dh为隐状态维度。


6.如权利要求3至5任一项所述的图像描述生成方法,其特征在于,使用的损失函数L为每一步的正确单词的负对数似然之和,如下





7.如权利要求3至6任一项所述的图像描述生成方法,其特征在于,采用维度为2的MD-LSTM对f进行建模,具体包括:
MD-LSTM通过门控函数对节点信息的继承与节点状态的更新,具体方式如下:
i...

【专利技术属性】
技术研发人员:马志明袁春
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1