用于双目视觉匹配的神经网络搜索方法及设备技术

技术编号:26891647 阅读:17 留言:0更新日期:2020-12-29 16:10
本发明专利技术提供一种用于双目视觉匹配的神经网络搜索方法及设备,所述方法包括:获取训练数据,所述训练数据包括双目图像及相应的视差数据;利用所述训练数据在单元级搜索空间和网络级搜索空间中搜索双目视觉匹配模型中的特征提取网络和三维匹配网络的结构;通过搜索过程中得到的视差数据与所述训练数据中的视差数据的差异,优化所述第一权重参数集、所述第二权重参数集以及网络权重直至搜索过程收敛;根据第一权重参数集的值保留至少部分所述操作,以及根据第二权重参数集的值保留至少一条路径,并基于保留的操作和路径得到优化的特征提取网络和三维匹配网络。

【技术实现步骤摘要】
用于双目视觉匹配的神经网络搜索方法及设备
本专利技术涉及神经网络搜索
,具体涉及一种用于双目视觉匹配的神经网络搜索方法及设备。
技术介绍
人类具有通过双眼观测、重建和理解三维世界的能力,对于场景的准确感知和重建对于人类的决策至关重要。双目视觉匹配(Stereomatching)致力于赋予计算机类似人类双眼的能力,其研究目标是由双目相机获得的二维彩色图像计算出视差图(disparitymap)。在获得了视差信息后,根据投影模型很容易地可以得到原始图像的深度信息和三维信息,因此该技术在三维场景重建、机器人、自动驾驶领域都有广泛的应用。双目视觉匹配不但是计算机视觉领域的一个难点问题,而且近二十年来一直是计算机视觉研究的重要问题之一。双目视觉匹配通过遍历参考图像中的每一个像素,根据视差范围中的每一个视差值找到对应目标图像的像素,而后进行代价聚合计算。随着大规模数据集的出现、计算力的快速发展,卷积神经网络已经在双目视觉匹配中有所成效。目前大多数基于深度学习的双目视觉匹配方法大致分为两类,一是直接回归视差值,二是基于匹配代价量(costvolume)的方法。直接回归视差的方法是对输入图像中的每个像素直接回归,并不考虑双目视觉匹配中的几何约束。通常采用包含二维卷积的大型U形编码器和解码器网络来实现的。此类方法需要依靠大量数据驱动,且泛化能力较差。相反,基于匹配三维代价量的方法利用半全局匹配的概念,通过平移每个视差的特征,级联地构建四维特征量。为减少人类在设计神经网络方面的工作,神经网络搜索(NeuralArchitectureSearch,NAS)被使用在一些基础视觉任务中,但直接使用神经网络搜索出一种用于双目视觉三维匹配的网络结构并非易事。通常,NAS需要大量的搜索空间以包含所有可能的架构,以选择合适的网络结构组件,如特定层中卷积的滤波器大小,这需要庞大的计算量。早期的NAS算法需要数千个GPU小时才能在CIFAR数据集上找到合适的架构。除此之外,由于在基于深度学习的双目视觉匹配方法中,三维匹配代价量需要重复的使用大量浮点运算,且必须使用级联层来实例化这些计算以保证效果,从而导致大量算力的消耗。例如,仅仅每个批次中的三维匹配子网络就需要6到8GB的GPU内存来进行训练。由于现有的神经网络搜索方法对计算资源需求的爆炸性增长,端到端地搜索双目视觉匹配网络的结构被认为是不可能的任务。
技术实现思路
有鉴于此,本专利技术提供一种用于双目视觉匹配的神经网络搜索方法,包括:获取训练数据,所述训练数据包括双目图像及相应的视差数据;利用所述训练数据在单元级搜索空间和网络级搜索空间中搜索双目视觉匹配模型中的特征提取网络和三维匹配网络的结构,其中所述单元级搜索空间包括基本搜索单元,所述基本搜索单元是具有多个节点的完全连接的有向无环图,其中各个节点之间的边表示可选的操作,且各边对应于第一权重参数集,多个所述基本搜索单元层级排列构成所述网络级搜索空间,其中每个所述基本搜索单元与前一层中的上一级和下一级之间有路径连接,各级中的所述基本搜索单元的分辨率不同,各个路径对应于第二权重参数集,所述网络级搜索空间的超参数包括所述分辨率和层数;通过搜索过程中得到的视差数据与所述训练数据中的视差数据的差异,优化所述第一权重参数集、所述第二权重参数集以及网络权重直至搜索过程收敛;根据第一权重参数集的值保留至少部分所述操作,以及根据第二权重参数集的值保留至少一条路径,并基于保留的操作和路径得到优化的特征提取网络和三维匹配网络。可选地,所述基本搜索单元包括多个中间节点,各个所述中间节点同时接收前两层基本搜索单元输出的特征数据。可选地,所述基本搜索单元包括一个输出节点,所述输出节点是由本单元的每一个中间节点及其前一层的基本搜索单元的输出节点融合形成的。可选地,对于特征提取网络和三维匹配网络,所述可选的操作不相同。可选地,对于特征提取网络所述可选的操作包括二维卷积、零连接和残差连接;对于三维匹配网络所述可选的操作包括三维卷积、零连接和残差连接。可选地,对于特征提取网络和所述三维匹配网络,所述层数不同。可选地,所述可选的分辨率有三种,按层级由大到小设置,所述网络级搜索空间中相同级的所有基本搜索单元的分辨率相同。可选地,将多个所述训练数据分为两部分,两部分训练数据被交替使用,其中第一部分训练数据用于优化所述网络权重,第二部分训练数据用于优化所述第一权重参数集和所述第二权重参数集。可选地,当搜索过程收敛后,保留每个基本搜索单元中所有非零操作中的最大的两个第一权重参数对应的操作,解码得到离散的基本单元,并确定具有最大第二权重参数的路径得到离散的特征提取网络结构和三维匹配网络结构。相应地,本专利技术提供一种用于双目视觉匹配的神经网络搜索设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述用于双目视觉匹配的神经网络搜索方法。根据本专利技术提供的用于双目视觉匹配的神经网络搜索方法及设备,可以在搜索空间中加入特定于双目视觉匹配任务的分辨率和层数这些先验知识,以避免在针对高分辨率密集型预测任务的搜索体系结构中对计算资源的爆炸性需求,并且获得更高的准确性。并且整个搜索过程中仅仅需要优化一种类型的基本搜索单元,分辨率的选择则由网络级搜索来完成,具有更加灵活的搜索机制和更高的效率。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为一个双目视觉匹配模型的结构示意图;图2为本专利技术实施例中的用于双目视觉匹配的神经网络搜索方法的流程图;图3为本专利技术实施例中的基本搜索单元和网络级搜索空间的示意图;图4为本专利技术实施例中一个优选的架构搜索结果示意图;图5为三维匹配模型识别视差数据的可视化效果图;图6为本专利技术方案与现有技术的性能及速度对比图。具体实施方式下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术的描述中,需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,下面所描述的本专利技术不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。图1示出了一个双目视觉匹配模型,该模型主要包括四部分:两个特征提取网络11,用于从输入的双目图像中提取局部图像特征;由左、右特征图平移、错位级联而构成四维特征量;三维匹配网络12本文档来自技高网
...

【技术保护点】
1.一种用于双目视觉匹配的神经网络搜索方法,其特征在于,包括:/n获取训练数据,所述训练数据包括双目图像及相应的视差数据;/n利用所述训练数据在单元级搜索空间和网络级搜索空间中搜索双目视觉匹配模型中的特征提取网络和三维匹配网络的结构,其中所述单元级搜索空间包括基本搜索单元,所述基本搜索单元是具有多个节点的完全连接的有向无环图,其中各个节点之间的边表示可选的操作,且各边对应于第一权重参数集,多个所述基本搜索单元层级排列构成所述网络级搜索空间,其中每个所述基本搜索单元与前一层中的上一级和下一级之间有路径连接,各级中的所述基本搜索单元的分辨率不同,各个路径对应于第二权重参数集,所述网络级搜索空间的超参数包括所述分辨率和层数;/n通过搜索过程中得到的视差数据与所述训练数据中的视差数据的差异,优化所述第一权重参数集、所述第二权重参数集以及网络权重直至搜索过程收敛;/n根据第一权重参数集的值保留至少部分所述操作,以及根据第二权重参数集的值保留至少一条路径,并基于保留的操作和路径得到优化的特征提取网络和三维匹配网络。/n

【技术特征摘要】
1.一种用于双目视觉匹配的神经网络搜索方法,其特征在于,包括:
获取训练数据,所述训练数据包括双目图像及相应的视差数据;
利用所述训练数据在单元级搜索空间和网络级搜索空间中搜索双目视觉匹配模型中的特征提取网络和三维匹配网络的结构,其中所述单元级搜索空间包括基本搜索单元,所述基本搜索单元是具有多个节点的完全连接的有向无环图,其中各个节点之间的边表示可选的操作,且各边对应于第一权重参数集,多个所述基本搜索单元层级排列构成所述网络级搜索空间,其中每个所述基本搜索单元与前一层中的上一级和下一级之间有路径连接,各级中的所述基本搜索单元的分辨率不同,各个路径对应于第二权重参数集,所述网络级搜索空间的超参数包括所述分辨率和层数;
通过搜索过程中得到的视差数据与所述训练数据中的视差数据的差异,优化所述第一权重参数集、所述第二权重参数集以及网络权重直至搜索过程收敛;
根据第一权重参数集的值保留至少部分所述操作,以及根据第二权重参数集的值保留至少一条路径,并基于保留的操作和路径得到优化的特征提取网络和三维匹配网络。


2.根据权利要求1所述的方法,其特征在于,所述基本搜索单元包括多个中间节点,各个所述中间节点同时接收前两层基本搜索单元输出的特征数据。


3.根据权利要求1或2所述的方法,其特征在于,所述基本搜索单元包括一个输出节点,所述输出节点是由本单元的每一个中间节点及其前一层的基本搜索单元的输出节点融合形成的。


4.根据权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:陈雪莲刘从新戈宗元赵昕和超张大磊
申请(专利权)人:上海鹰瞳医疗科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1