一种基于对象检测器和递归神经网络的统一图解析网络制造技术

技术编号:18658746 阅读:28 留言:0更新日期:2018-08-11 14:44
本发明专利技术中提出的一种基于对象检测器和递归神经网络的统一图解析网络,其主要内容包括:解析图的组成、动态图生成网络、多任务训练、级联推理,其过程为,先利用一个对象检测器检测图像中的对象,接着通过图推断预测顶点之间边的存在,并使用一个动态图生成网络在线构造二向图,并从相邻的边聚合信息,然后通过端到端的方式对网络进行训练,最后处理生成的关系信息,以进一步生成知识句。本发明专利技术解决了以往输入到输出路径过长导致错误累积、图表中的语境丢失等问题,同时能够充分处理图像中的信息,优化完成后,还可以用于解决问题回答等基于语言的问题。

A unified graph analysis network based on object detector and recurrent neural network

A unified graph analysis network based on object detector and recursive neural network is proposed in the present invention. Its main contents include the composition of analytical graph, dynamic graph generation network, multi-task training and cascade reasoning. The process is that the object in the image is detected by an object detector first, and then the prediction is inferred from the graph. The edges between vertices exist, and a dynamic graph is used to generate a network to construct a bi-directional graph online, aggregate information from adjacent edges, train the network through end-to-end manner, and finally process the generated relationship information to further generate knowledge sentences. The invention solves the problems of error accumulation caused by the long input-output path and the loss of context in the chart, and can fully process the information in the image. After optimization, it can also be used to solve language-based problems such as answering and so on.

【技术实现步骤摘要】
一种基于对象检测器和递归神经网络的统一图解析网络
本专利技术涉及计算机视觉领域,尤其是涉及了一种基于对象检测器和递归神经网络的统一图解析网络。
技术介绍
在十年之内,在经典视觉问题上的表现,如图像分类、对象检测和分割,由于使用了深度学习框架得到很大程度的进步。鉴于深度学习对于这种低级视觉问题的巨大成功,下一步可能是理解图像,生成语义,比如对象之间的关系等。图像理解可以用于电视电话、电视会议等需要传输图像的应用中,在基于理解基础上的压缩可以大大减少需传输的图像数据。对航空遥感和卫星遥感图片的分析和理解,可用于对地质、矿产、森林、水利、海洋、农业等资源的调查和研究,进行自然灾害的预测和预报、环境的污染监测、气象分析,以及军事目标的识别。利用图像理解可以自动识别信件、包裹等的邮编、地址等信息,从而进行自动分检和归类。然而目前对于图像理解及语义生成的方法有几个限制:第一,将分离的方法连接起来导致从输入到输出要经过一个长的传输管道,这可能导致累积的错误,并丢失图表中的语境;第二,更重要的是,一般的循环神经网络(RNN)不能完全处理图形结构的信息。本专利技术提出了一种基于对象检测器和递归神经网络的统一图解析网络,首先利用一个对象检测器检测图像中的对象,接着通过图推断预测顶点之间边的存在,并使用一个动态图生成网络在线构造二向图,并从相邻的边聚合信息,然后通过端到端的方式对网络进行训练,最后处理生成的关系信息,以进一步生成知识句。本专利技术解决了以往输入到输出路径过长导致错误累积、图表中的语境丢失等问题,同时能够充分处理图像中的信息,优化完成后,还可以用于解决问题回答等基于语言的问题。
技术实现思路
针对现有的技术在图像理解上容易出错或丢失语境而且不能完全处理图像信息的问题,本专利技术提出了一种基于对象检测器和递归神经网络的统一图解析网络,首先利用一个对象检测器检测图像中的对象,接着通过图推断预测顶点之间边的存在,并使用一个动态图生成网络在线构造二向图,并从相邻的边聚合信息,然后通过端到端的方式对网络进行训练,最后处理生成的关系信息,以进一步生成知识句。为解决上述问题,本专利技术提供一种基于对象检测器和递归神经网络的统一图解析网络,其主要内容包括:(一)解析图的组成;(二)动态图生成网络;(三)多任务训练;(四)级联推理。其中,所述的所述的解析图的组成,是使用大对象(独立物体)、文本、箭头和箭尾来定义物体。其中,所述的动态图生成网络,通过图推断来预测一对顶点之间的边的存在,从而对图中对象的关系匹配进行了预测,图的节点和边分别与对象和对象之间的关系相对应,因此,关系图用一个双向图来描述:G=(V,E)(1)其中V=X∪Y表示成对互斥的顶点集合和而E表示的是图上连接x∈χ和的边;然后使用以门控循环单元(GRU)作为基础模型的动态图生成网络(DGGN)方法从相邻的边聚合消息,同时为了传递相邻边的信息,DGGN采用一个可以在线构建图形结构的动态规划方案。进一步地,所述的双向图,其构造过程为复制被检测到的对象O为Ox和并假设这两个集合是不相交的,然后预测在节点Ox和之间是否存在边,其中节点之间的连接由它们的空间关系和对象检测器提供的每个对象类的置信度评分决定;没有使用来自ROI池的卷积特性,而是为对象Ox定义一个特性其中包括位置(xmin、ymin、xmax、ymax)、中心点(x中心值、y中心值)、宽度、高度和置信度评分,因此,物体Ox和之间的关系可以用局部特性描述,而特征向量f(l)作为一个RNN层的输入,同时为了防止序列中局部特性的顺序影响性能,每次迭代之前随机地调整特性的顺序;此外,为了提取图的布局和所有对象的空间信息,一个全局特性f(g)被用作RNN的输入,其中全局特性是由第一个分支中主干神经网络的conv-7层(256×1×1)的卷积特性和一个图的二进制掩码特性(128×1)所构成的,且为了匹配conv-7和隐藏单元的维度,在最后一步中使用了一个全连接层,而对于掩码特性,将的维度二进制掩码映射传输到一个4层的卷积网并且最大池化以匹配隐藏单元的维度,其中nh和nw分别代表图像的高度和宽度,nc则代表物体种类的数目。进一步地,所述的DGGN方法,结合了图论中的邻接矩阵,它主要用于通过图形的已知结构来传播信息,然而,由于邻接矩阵是未知的,因此引入一个动态内存组件来估计这个邻接矩阵,它包含节点之间的连接信息,并且将二维的邻接矩阵扩展到三维存储器;动态邻接张量内存(DATM)定义为邻接矩阵的连接和对应的隐藏单元H,其中邻接矩阵A表示在有向图中n个节点之间的连接状态,邻接矩阵中的每个单元只表示对应的节点对是否有一个指向的弧,隐藏单元H的元素h(i,j)是GRU的m维隐藏向量,它与节点Oi和Oj之间的连接有关;最后,执行张量D的检索和更新步骤,以聚集来自邻边的信息,同时构建图形。进一步地,所述的张量D的检索步骤,过程为获取以前的隐藏状态它收集着通过相邻边传播的信息,同时用两节点之间存在边的概率来加权Oi和Oj的邻接向量,形式上,为输入矢量提取一个合适的隐藏单元表示与节点i和j的连接,如下所述:其中,ak,i表示矩阵A的(i,j)元素,是储存在张量H的(i,j)位置的隐藏单元,概率ai,j作为聚集消息的权重,意味着更可靠的相邻边应该给出更可信的信息;最后在传输到GRU层之前,添加全局特性f(g)来反映图表的全局形状。进一步地,所述的张量D的更新步骤,其过程为使用一个m+1长度的向量来更新单元Dij,它将输出at和GRU单元的隐藏状态ht连接起来:at=σ(Wlht+bt)(7)Di,j=[at,ht](8)其中σ(·)是一个s形函数,为了获得隐藏状态向量和分别被用作标准GRU的前隐状态和输入向量,更新门zt在GRU单元中有一个作用是调整之前的信息的输入,二进制输出at在全连接层后获得。其中,所述的多任务训练,其过程是统一图解析网络(UDPnet)是通过端到端方式进行训练的,因为UDPnet由两个分支组成(基于单次检测器的对象检测和DGGN的图形生成),本质上,这是一个多任务学习问题,因此,每个分支的不同损失被合并到总体损失L中,如下所列:L=αLc+βLl+γLr(9)总体损失是分类损失Lc,对象检测分支的位置回归损失Ll,以及图生成网络的关系分类损失Lr的加权和;正如在原始的单次检测器(SSD)中定义的那样,分类损失Lc是对多个类的信任度的损失函数,而位置回归损失Ll则是预测框和参考框之间的平滑的L1损失,关联分类损失Lr是两个相邻或不相邻的类之间的损失函数;为了更快的收敛,首先预先训练对象检测分支,然后用整体损失对这两个分支进行微调。进一步地,所述的训练对象检测分支,其特征在于,制定了一套策略来匹配候选项对和参考标签,首先,假设对象检测分支检测到n个对象,那么就生成n2对关系候选项,对于每个关系候选来说,两个集合的交集是均等的,每个集合都在一个被检测到的对象和最近的参考标签之间计算过;然后每一个参考关系都与最好的重叠关系候选相匹配,考虑到不同图中检测到的对象数量的不平衡,从每个训练图中抽取相同数量的关系候选对象。其中,所述的级联推理,其过程是首先检测到图表中的对象,然后应用交并比(IoU)阈值为0.45的非最大抑制(NMS)在分数高于0本文档来自技高网
...

【技术保护点】
1.一种基于对象检测器和递归神经网络的统一图解析网络,其特征在于,主要包括解析图的组成(一);动态图生成网络(二);多任务训练(三);级联推理(四)。

【技术特征摘要】
1.一种基于对象检测器和递归神经网络的统一图解析网络,其特征在于,主要包括解析图的组成(一);动态图生成网络(二);多任务训练(三);级联推理(四)。2.基于权利要求书1所述的解析图的组成(一),其特征在于,使用大对象(独立物体)、文本、箭头和箭尾来定义物体。3.基于权利要求书1所述的动态图生成网络(二),其特征在于,通过图推断来预测一对顶点之间的边的存在,从而对图中对象的关系匹配进行了预测,图的节点和边分别与对象和对象之间的关系相对应,因此,关系图用一个双向图来描述:H=(V,E)(1)其中V=X∪Y表示成对互斥的顶点集合和而E表示的是图上连接和的边;然后使用以门控循环单元(GRU)作为基础模型的动态图生成网络(DGGN)方法从相邻的边聚合消息,同时为了传递相邻边的信息,DGGN采用一个可以在线构建图形结构的动态规划方案。4.基于权利要求书3所述的双向图,其特征在于,构造过程为复制被检测到的对象O为Ox和并假设这两个集合是不相交的,然后预测在节点Ox和之间是否存在边,其中节点之间的连接由它们的空间关系和对象检测器提供的每个对象类的置信度评分决定;没有使用来自ROI池的卷积特性,而是为对象Ox定义一个特性其中包括位置(xmin、ymin、xmax、ymax)、中心点(x中心值、y中心值)、宽度、高度和置信度评分,因此,物体Ox和之间的关系可以用局部特性描述,而特征向量f(l)作为一个RNN层的输入,同时为了防止序列中局部特性的顺序影响性能,每次迭代之前随机地调整特性的顺序;此外,为了提取图的布局和所有对象的空间信息,一个全局特性f(g)被用作RNN的输入,其中全局特性是由第一个分支中主干神经网络的conv-7层(256×1×1)的卷积特性和一个图的二进制掩码特性(128×1)所构成的,且为了匹配conv-7和隐藏单元的维度,在最后一步中使用了一个全连接层,而对于掩码特性,将的维度二进制掩码映射传输到一个4层的卷积网并且最大池化以匹配隐藏单元的维度,其中nh和nw分别代表图像的高度和宽度,nc则代表物体种类的数目。5.基于权利要求书3所述的DGGN方法,其特征在于,结合了图论中的邻接矩阵,它主要用于通过图形的已知结构来传播信息,然而,由于邻接矩阵是未知的,因此引入一个动态内存组件来估计这个邻接矩阵,它包含节点之间的连接信息,并且将二维的邻接矩阵扩展到三维存储器;动态邻接张量内存(DATM)定义为邻接矩阵的连接和对应的隐藏单元H,其中邻接矩阵A表示在有向图中n个节点之间的连接状态,邻接矩阵中的每个单元只表示对应的节点对是否有一个指向的弧,隐藏单元H的元素h(i,j)是GRU的m维隐藏向量,它与节点Oi和Oj之间的连接有关;最后,执行张量D的检索和更新步骤,以聚集来自邻边的信息,同时构建图形。6.基于权利要求书5所述的张量D的...

【专利技术属性】
技术研发人员:夏春秋
申请(专利权)人:深圳市唯特视科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1