可生成依存树的图像描述生成方法和装置制造方法及图纸

技术编号：25710016 阅读：33 留言：0更新日期：2020-09-23 02:56

一种可生成依存树的图像描述生成方法，所述方法包括对图像描述文本的依存树的三叉树进行建模，从输入的图像中提取出图像特征，然后基于所述图像特征生成所述三叉树的根节点，再生成所述根节点的三个孩子节点，以此类推，递归地生成每一个节点的三个孩子节点，由此生成三叉树，再将生成的三叉树转化成图像描述文本的依存树；较佳地，通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。本发明专利技术中，节点生成的依赖路径较序列模型更短，且在生成过程中可优先生成重要的单词，生成模式与人类更为接近，达到了高于基准模型的表现。

全部详细技术资料下载

【技术实现步骤摘要】
可生成依存树的图像描述生成方法和装置
本专利技术涉及人工智能领域，特别是涉及一种可生成依存树的图像描述生成方法和装置。
技术介绍
根据给定的图像自动生成描述该图像内容的自然语言文本是人工智能领域的一个基本任务。现有的基于深度学习的方法将文本当成单词序列来逐一生成，没有考虑到自然语言文本内在的层次结构，仅能生成序列状的文本。以上
技术介绍
内容的公开仅用于辅助理解本专利技术的专利技术构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下，上述
技术介绍
不应当用于评价本申请的新颖性和创造性。
技术实现思路
本专利技术的主要目的在于克服上述技术缺陷，提供一种可生成依存树的图像描述生成方法和装置。为实现上述目的，本专利技术采用以下技术方案：一种可生成依存树的图像描述生成方法，所述方法包括对图像描述文本的依存树的三叉树进行建模，从输入的图像中提取出图像特征，然后基于所述图像特征生成所述三叉树的根节点，再生成所述根节点的三个孩子节点，以此类推，递归地生成每一个节点的三个孩子节点，由此生成三叉树，再将生成的三叉树转化成图像描述文本的依存树；优选地，通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。进一步地：所述建模基于树状解码器，其中采用卷积神经网络CNN提取出图像的全局特征和局部特征k为局部特征的数量，将图像全局特征v0定义为所述三叉树的根节点的父节点，并采用MD-LSTM处理所述三叉树中的所述父节点和三个孩子节点之...

【技术保护点】
1.一种可生成依存树的图像描述生成方法，其特征在于，所述方法包括对图像描述文本的依存树的三叉树进行建模，从输入的图像中提取出图像特征，然后基于所述图像特征生成所述三叉树的根节点，再生成所述根节点的三个孩子节点，以此类推，递归地生成每一个节点的三个孩子节点，由此生成三叉树，再将生成的三叉树转化成图像描述文本的依存树；优选地，通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。/n

【技术特征摘要】
1.一种可生成依存树的图像描述生成方法，其特征在于，所述方法包括对图像描述文本的依存树的三叉树进行建模，从输入的图像中提取出图像特征，然后基于所述图像特征生成所述三叉树的根节点，再生成所述根节点的三个孩子节点，以此类推，递归地生成每一个节点的三个孩子节点，由此生成三叉树，再将生成的三叉树转化成图像描述文本的依存树；优选地，通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。

2.如权利要求1所述的图像描述生成方法，其特征在于，所述建模基于树状解码器，其中采用卷积神经网络CNN提取出图像的全局特征和局部特征V＝{v1，…，vk}，k为局部特征的数量，将图像全局特征v0定义为所述三叉树的根节点的父节点，并采用MD-LSTM处理所述三叉树中的所述父节点和三个孩子节点之间的关系。

3.如权利要求1至2任一项所述的图像描述生成方法，其特征在于，生成三叉树的方法包括：
设不同节点的孩子节点在给定它们的祖先节点时条件独立，而同一父节点的不同孩子节点相互关联的，根据条件概率

其中A(t)和L(t)分别表示节点t的祖先节点和左兄弟节点；对于没有左兄弟节点的节点，其生成仅依靠其父节点；而三叉树的根节点的生成则依靠全局图像特征v0；父节点和左兄弟节点的条件信息用两个固定长度的隐状态向量ha和hl分别表示；节点的隐状态由其父节点和左兄弟节点的输入xa、xl及它们的隐状态ha、hl通过非线性函数f得到
hi＝f(ha，hl，xa，xl)(2)
其中i表示节点生成的序号；采用维度为2的MD-LSTM对f进行建模；
每个节点的预测使用其父节点和左兄弟节点的信息，向三叉树中每个节点到其孩子节点之间添加一条有向边，向每个节点到其右兄弟节点之间添加一条有向边，以由此得到的有向图拓扑排序作为节点的生成顺序。

4.如权利要求3所述的图像描述生成方法，其特征在于，所述拓扑排序通过深度优先搜索DFS或广度优先搜索BFS得到。

5.如权利要求3或4所述的图像描述生成方法，其特征在于，所述三叉树的训练过程展开根据如下公式：

x-1＝Wvv0(4)

xi＝WeSi(6)
hi＝f(ha(i)，hl(i)，xa(i)，xl(i))(7)
pi＝softmax(Whhi)(8)
其中下标i表示该节点在拓扑排序中的序号，a(i)和l(i)分别表示节点ti的父节点和左兄弟节点的序号；优选地，定义三叉树根节点的父节点的序号为-1，如果ti没有左兄弟节点，定义l(i)＝-2；表示ti节点单词的独热向量，为单词表；和分别为可学习词嵌入矩阵和图像嵌入矩阵，为可学习矩阵，通过hi预测单词表中每个单词的概率pi，dh为隐状态维度。

6.如权利要求3至5任一项所述的图像描述生成方法，其特征在于，使用的损失函数L为每一步的正确单词的负对数似然之和，如下

7.如权利要求3至6任一项所述的图像描述生成方法，其特征在于，采用维度为2的MD-LSTM对f进行建模，具体包括：
MD-LSTM通过门控函数对节点信息的继承与节点状态的更新，具体方式如下：
i...

【专利技术属性】
技术研发人员：马志明，袁春，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人