A unified graph analysis network based on object detector and recursive neural network is proposed in the present invention. Its main contents include the composition of analytical graph, dynamic graph generation network, multi-task training and cascade reasoning. The process is that the object in the image is detected by an object detector first, and then the prediction is inferred from the graph. The edges between vertices exist, and a dynamic graph is used to generate a network to construct a bi-directional graph online, aggregate information from adjacent edges, train the network through end-to-end manner, and finally process the generated relationship information to further generate knowledge sentences. The invention solves the problems of error accumulation caused by the long input-output path and the loss of context in the chart, and can fully process the information in the image. After optimization, it can also be used to solve language-based problems such as answering and so on.
【技术实现步骤摘要】
一种基于对象检测器和递归神经网络的统一图解析网络
本专利技术涉及计算机视觉领域,尤其是涉及了一种基于对象检测器和递归神经网络的统一图解析网络。
技术介绍
在十年之内,在经典视觉问题上的表现,如图像分类、对象检测和分割,由于使用了深度学习框架得到很大程度的进步。鉴于深度学习对于这种低级视觉问题的巨大成功,下一步可能是理解图像,生成语义,比如对象之间的关系等。图像理解可以用于电视电话、电视会议等需要传输图像的应用中,在基于理解基础上的压缩可以大大减少需传输的图像数据。对航空遥感和卫星遥感图片的分析和理解,可用于对地质、矿产、森林、水利、海洋、农业等资源的调查和研究,进行自然灾害的预测和预报、环境的污染监测、气象分析,以及军事目标的识别。利用图像理解可以自动识别信件、包裹等的邮编、地址等信息,从而进行自动分检和归类。然而目前对于图像理解及语义生成的方法有几个限制:第一,将分离的方法连接起来导致从输入到输出要经过一个长的传输管道,这可能导致累积的错误,并丢失图表中的语境;第二,更重要的是,一般的循环神经网络(RNN)不能完全处理图形结构的信息。本专利技术提出了一种基于对象检测器和递归神经网络的统一图解析网络,首先利用一个对象检测器检测图像中的对象,接着通过图推断预测顶点之间边的存在,并使用一个动态图生成网络在线构造二向图,并从相邻的边聚合信息,然后通过端到端的方式对网络进行训练,最后处理生成的关系信息,以进一步生成知识句。本专利技术解决了以往输入到输出路径过长导致错误累积、图表中的语境丢失等问题,同时能够充分处理图像中的信息,优化完成后,还可以用于解决问题回答等基 ...
【技术保护点】
1.一种基于对象检测器和递归神经网络的统一图解析网络,其特征在于,主要包括解析图的组成(一);动态图生成网络(二);多任务训练(三);级联推理(四)。
【技术特征摘要】
1.一种基于对象检测器和递归神经网络的统一图解析网络,其特征在于,主要包括解析图的组成(一);动态图生成网络(二);多任务训练(三);级联推理(四)。2.基于权利要求书1所述的解析图的组成(一),其特征在于,使用大对象(独立物体)、文本、箭头和箭尾来定义物体。3.基于权利要求书1所述的动态图生成网络(二),其特征在于,通过图推断来预测一对顶点之间的边的存在,从而对图中对象的关系匹配进行了预测,图的节点和边分别与对象和对象之间的关系相对应,因此,关系图用一个双向图来描述:H=(V,E)(1)其中V=X∪Y表示成对互斥的顶点集合和而E表示的是图上连接和的边;然后使用以门控循环单元(GRU)作为基础模型的动态图生成网络(DGGN)方法从相邻的边聚合消息,同时为了传递相邻边的信息,DGGN采用一个可以在线构建图形结构的动态规划方案。4.基于权利要求书3所述的双向图,其特征在于,构造过程为复制被检测到的对象O为Ox和并假设这两个集合是不相交的,然后预测在节点Ox和之间是否存在边,其中节点之间的连接由它们的空间关系和对象检测器提供的每个对象类的置信度评分决定;没有使用来自ROI池的卷积特性,而是为对象Ox定义一个特性其中包括位置(xmin、ymin、xmax、ymax)、中心点(x中心值、y中心值)、宽度、高度和置信度评分,因此,物体Ox和之间的关系可以用局部特性描述,而特征向量f(l)作为一个RNN层的输入,同时为了防止序列中局部特性的顺序影响性能,每次迭代之前随机地调整特性的顺序;此外,为了提取图的布局和所有对象的空间信息,一个全局特性f(g)被用作RNN的输入,其中全局特性是由第一个分支中主干神经网络的conv-7层(256×1×1)的卷积特性和一个图的二进制掩码特性(128×1)所构成的,且为了匹配conv-7和隐藏单元的维度,在最后一步中使用了一个全连接层,而对于掩码特性,将的维度二进制掩码映射传输到一个4层的卷积网并且最大池化以匹配隐藏单元的维度,其中nh和nw分别代表图像的高度和宽度,nc则代表物体种类的数目。5.基于权利要求书3所述的DGGN方法,其特征在于,结合了图论中的邻接矩阵,它主要用于通过图形的已知结构来传播信息,然而,由于邻接矩阵是未知的,因此引入一个动态内存组件来估计这个邻接矩阵,它包含节点之间的连接信息,并且将二维的邻接矩阵扩展到三维存储器;动态邻接张量内存(DATM)定义为邻接矩阵的连接和对应的隐藏单元H,其中邻接矩阵A表示在有向图中n个节点之间的连接状态,邻接矩阵中的每个单元只表示对应的节点对是否有一个指向的弧,隐藏单元H的元素h(i,j)是GRU的m维隐藏向量,它与节点Oi和Oj之间的连接有关;最后,执行张量D的检索和更新步骤,以聚集来自邻边的信息,同时构建图形。6.基于权利要求书5所述的张量D的...
【专利技术属性】
技术研发人员:夏春秋,
申请(专利权)人:深圳市唯特视科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。