生成图像或音频数据的输入数据集对的位移图制造技术

技术编号:27040633 阅读:19 留言:0更新日期:2021-01-12 11:24
本发明专利技术是一种用于生成输入数据集对中的第一输入数据集和第二输入数据集的位移图的方法和装置。该装置包括:基于神经网络的特征提取器(25),其用于处理第一输入数据集和第二输入数据集以生成特征图层级(50),该特征图层级(50)包括特征图基础对(20e,30e)和特征图细化对(20b,30b,20c,30c,20d,30d);包括第一比较器单元的位移单元,其用于使用特征图基础对(20e,30e)来获得初始位移图;以及位移细化单元,其用于获得特征图细化对(20d,30d)的经更新位移图。

【技术实现步骤摘要】
【国外来华专利技术】生成图像或音频数据的输入数据集对的位移图
本专利技术涉及一种用于生成输入数据集对中的第一输入数据集和第二输入数据集的位移图(例如,立体图像对中的左/第一图像和右/第二图像的视差图)的方法和装置。
技术介绍
从立体图像精确地估计深度(换言之,从立体图像生成视差图)是许多计算机视觉应用(诸如自主(自动驾驶)车辆、机器人视觉、增强现实)的核心问题。更一般而言,对两个(相关)图像之间的位移的研究是当今广泛应用的工具。相应地,若干种不同的办法可用于基于立体图像来生成视差图。在US5,727,078、US2008/0267494A1、US2011/0176722A1、US2012/0008857A1、US2014/0147031A1和US9,030,530B2中公开的办法中,根据从场景记录的立体图像生成低分辨率图像。对这些低分辨率图像执行视差分析,通过该分析获得的视差图被放大,或者其精度通过逐渐应用的放大而提高。针对WO00/27131A1和WO2016/007261A1中的每个立体图像生成具有分辨率越来越低的图像的单独分层系列。在这些办法中,视差图是基于最粗糙级别的左图像和右图像生成的。在这些文档中,应用对低分辨率视差图的升尺度(upscaling)。在CN105956597A中借助于神经网络来处理立体图像以获得视差图。在以下论文(其中若干论文在康奈尔大学图书馆的arXiv开放访问数据库中可作为预印件获得)中,神经网络被用于生成特征图、以及例如立体图像的视差或其他类型输出:·A.Kendall等人:End-to-endlearningofgeometryandcontextfordeepstereoregression,2017,arXiv:1703.04309(下文称为Kendall);·Y.Zhong等人:Self-supervisedlearningforstereomatchingwithself-improvingability,2017,arXiv:1709.00930(下文称为Zhong);·N.Mayer等人:FlowNet:Learningopticalflowwithconvolutionalnetworks,2015,arXiv:1504.06852(下文称为Mayer);·Ph.Fischer等人:FlowNet:Learningopticalflowwithconvolutionalnetworks,2015,arXiv:1504.06852(下文称为Fischer);·J.Pang等人:Cascaderesiduallearning:Atwo-stageconvolutionalneuralnetworkforstereomatching,2017,arXiv:1708.09204(下文称为Pang);·C.Godard等人:Unsupervisedmonoculardepthestimationwithleft-rightconsistency,2017,arXiv:1609.03677(下文称为Godard)。应用神经网络的许多现有技术办法的缺点是实现的高度复杂性。此外,在大多数已知办法中,计算成本较高。鉴于已知办法,需要一种用于生成输入数据集对中的第一输入数据集和第二输入数据集的位移图(例如,用于生成立体图像对的视差图)的方法和装置,藉此能够以计算成本有效的方式来生成位移图(例如,视差图)。
技术实现思路
本专利技术的主要目的是提供一种用于生成输入数据集对中的第一输入数据集和第二输入数据集的位移图(例如,立体图像对的视差图)的方法和装置,该方法和装置在最大可能程度上没有现有技术办法的缺点。本专利技术的进一步目的是提供一种用于生成位移图的方法和装置,藉此能够用尽可能低的复杂度以计算成本有效的方式来生成良好质量和分辨率的位移图。本专利技术的目的可以通过根据权利要求1的方法和根据权利要求13的装置来实现。本专利技术的优选实施例在从属权利要求中定义。贯穿本文档,“位移图”应当指代某个n维的广义视差,即,对公知的立体(左右)视差(视差图是位移图的特殊情形)或其他种类的位移图(诸如在研究光流的情形中的流图)的泛化。然而,参照附图详细描述的实施例是借助于公知的立体视差的示例来解说的(参见图2)。位移图(例如,n维广义视差图)是指向每个空间位置(诸如图像上的像素)指派n维位移矢量的映射。假设输入数据集(例如,图像)或特征图(这些是藉由根据本专利技术的方法和装置来处理的广义图像和特征图)被赋予多维张量,该多维张量具有至少一个空间维度和/或时间维度(空间维度的维数以其他方式不受约束,其可以为1、2、3或更大)、以及通道维度(与该维度相对应的通道可以被称为特征通道或简称为通道)。如果输入或特征图的通道维度为N,则该输入或特征图具有N个通道,例如,RGB图像具有3个通道,而灰度图像具有1个通道。表述“空间维度”的含义在此处不受约束,它仅用作这些维度与通道维度的区分,并且时间维度也可以单独定义。随后,以上定义的(广义)位移可以被表示为具有与输入数据集相同的空间维度并具有(坐标)通道维度的张量,该通道维度的长度与输入数据集张量的空间维度的维数相同,或者在任务被限制于空间维度子集的情况下小于空间维度的维数。对于输入数据集的每个空间位置(即,像素或体素,一般而言为数据元素),位移图因此确定位移的方向和幅度,即,位移矢量。这些位移矢量的坐标应当形成表示位移图的张量的坐标通道维度(位移图的通道可以被称为坐标通道,以与特征图的特征通道作出区分)。广义视差意义上的位移概念也应当包括位移矢量被限制于可能位移矢量的子集的那些情形。例如,二维左输入数据集张量和右输入数据集张量(在该情形中为图像)的典型立体视差可以通过将广义视差约束成以使得仅允许水平方向上的位移来描述。由此,位移矢量可以用一个坐标而不是两个坐标来描述,这是因为它们的垂直(y)坐标始终为零(在附图中所解说的示例中就是这种情形)。因此,在该情形中,广义视差可以由如下张量表示:该张量的坐标通道维度是1而不是2,并且该张量的值仅表示水平位移。即,视差张量的坐标通道数目可以等于可能位移矢量的子空间的实际维度,即,在该情形中是1而不是2。在三个空间维度中,图像元素通常被称为体素,在二维中它们可以被称为像素,而在一维中它们可以被称为样本(例如,在语音记录的情形中)或样本值。在本文档中,将输入数据集张量(以及特征图)的空间位置称为“数据元素”,而不管空间维度的维数如何。由此,输入数据集不需要是RGB图像,它们可以是任何种类的多维数据,包括但不限于:时间序列(诸如音频样本)、ECG、在任何色彩空间(诸如RGB、灰度、YCbCr、CMYK)中编码的2D图像、2D热像仪图像、来自深度相机的2D深度图、通过稀疏LIDAR(激光雷达)或RADAR(雷达)扫描产生的2D深度图、或3D医学图像(诸如MRI、CT)。对位移图的技术表示不限于上面描述的那些表示,还可以构想其他表示。一般而言,输入数据集本文档来自技高网
...

【技术保护点】
1.一种用于生成输入数据集对中的第一输入数据集和第二输入数据集的位移图的方法,每个输入数据集具有至少一个空间维度和/或时间维度,所述方法包括以下步骤:/n-藉由基于神经网络的特征提取器(25)来处理所述第一输入数据集和所述第二输入数据集以生成特征图层级(50),所述特征图层级(50)包括特征图基础对(20e,30e)和特征图细化对(20b,30b,20c,30c,20d,30d),每一对特征图(20b,30b,20c,30c,20d,30d,20e,30e)构成所述特征图层级(50)的一个级别,所述特征图细化对(20b,30b,20c,30c,20d,30d)在其至少一个空间维度和/或时间维度中的所有维度上的分辨率不如所述特征图基础对(20e,30e)的分辨率粗糙;/n-基于将所述特征图基础对(20e,30e)中的第一特征图与所述特征图基础对(20e,30e)中的第二特征图进行匹配,来在位移生成操作中生成针对所述特征图层级(50)中的所述特征图基础对(20e,30e)的初始位移图;/n-在位移细化操作中:/n-使用相应的升尺度因子将所述初始位移图在其至少一个空间维度和/或时间维度中的所有维度上升尺度至所述特征图层级(50)中的所述特征图细化对(20b,30b,20c,30c,20d,30d)的尺度,并将所述初始位移图的值与所述相应的升尺度因子相乘以生成经升尺度的初始位移图,/n-通过将所述经升尺度的初始位移图用于所述特征图层级(50)中的所述特征图细化对(20b,30b,20c,30c,20d,30d)中的第一特征图上来执行扭曲操作,生成所述特征图细化对(20b,30b,20c,30c,20d,30d)中的所述第一特征图的经扭曲版本,/n-将所述特征图细化对(20b,30b,20c,30c,20d,30d)中的所述第一特征图的所述经扭曲版本与所述特征图细化对(20b,30b,20c,30c,20d,30d)中的所述第二特征图进行匹配,以获得针对所述特征图细化对(20b,30b,20c,30c,20d,30d)中的所述第一特征图的所述经扭曲版本和所述特征图细化对(20b,30b,20c,30c,20d,30d)中的所述第二特征图的校正位移图,所述校正位移图被加到所述经升尺度的初始位移图以获得经更新位移图。/n...

【技术特征摘要】
【国外来华专利技术】20180530 US 15/992,9301.一种用于生成输入数据集对中的第一输入数据集和第二输入数据集的位移图的方法,每个输入数据集具有至少一个空间维度和/或时间维度,所述方法包括以下步骤:
-藉由基于神经网络的特征提取器(25)来处理所述第一输入数据集和所述第二输入数据集以生成特征图层级(50),所述特征图层级(50)包括特征图基础对(20e,30e)和特征图细化对(20b,30b,20c,30c,20d,30d),每一对特征图(20b,30b,20c,30c,20d,30d,20e,30e)构成所述特征图层级(50)的一个级别,所述特征图细化对(20b,30b,20c,30c,20d,30d)在其至少一个空间维度和/或时间维度中的所有维度上的分辨率不如所述特征图基础对(20e,30e)的分辨率粗糙;
-基于将所述特征图基础对(20e,30e)中的第一特征图与所述特征图基础对(20e,30e)中的第二特征图进行匹配,来在位移生成操作中生成针对所述特征图层级(50)中的所述特征图基础对(20e,30e)的初始位移图;
-在位移细化操作中:
-使用相应的升尺度因子将所述初始位移图在其至少一个空间维度和/或时间维度中的所有维度上升尺度至所述特征图层级(50)中的所述特征图细化对(20b,30b,20c,30c,20d,30d)的尺度,并将所述初始位移图的值与所述相应的升尺度因子相乘以生成经升尺度的初始位移图,
-通过将所述经升尺度的初始位移图用于所述特征图层级(50)中的所述特征图细化对(20b,30b,20c,30c,20d,30d)中的第一特征图上来执行扭曲操作,生成所述特征图细化对(20b,30b,20c,30c,20d,30d)中的所述第一特征图的经扭曲版本,
-将所述特征图细化对(20b,30b,20c,30c,20d,30d)中的所述第一特征图的所述经扭曲版本与所述特征图细化对(20b,30b,20c,30c,20d,30d)中的所述第二特征图进行匹配,以获得针对所述特征图细化对(20b,30b,20c,30c,20d,30d)中的所述第一特征图的所述经扭曲版本和所述特征图细化对(20b,30b,20c,30c,20d,30d)中的所述第二特征图的校正位移图,所述校正位移图被加到所述经升尺度的初始位移图以获得经更新位移图。


2.如权利要求1所述的方法,其特征在于:
-至少两个特征图细化对(20b,30b,20c,30c,20d,30d)被包括在所述特征图层级(50)中,其中,最接近所述特征图层级(50)中的所述特征图基础对(20e,30e)的第一特征图细化对(20d,30d)的分辨率不如所述特征图基础对(20e,30e)的分辨率粗糙,并且与所述第一特征图细化对(20d,30d)相比较不接近所述特征图层级(50)中的所述特征图基础对(20e,30e)的每个相继特征图细化对(20b,30b,20c,30c)的分辨率不如与相应的相继特征图细化对(20b,30b,20c,30c)相比较接近所述特征图层级(50)中的所述特征图基础对(20e,30e)的相邻特征图细化对(20d,30d)的分辨率粗糙,
-所述位移细化操作是使用所述第一特征图细化对(20d,30d)来执行的,并且相应的进一步位移细化操作是针对每个相继特征图细化对(20b,30b,20c,30c)来执行的,其中,在每个进一步位移细化操作中,针对与相应的相继特征图细化对(20b,30b,20c,30c)相比较接近所述特征图层级(50)中的所述特征图基础对(20e,30e)的所述相邻特征图细化对(20d,30d)获得的经更新位移图被用作所述初始位移图,所述初始位移图在相应的位移细化操作中在升尺度期间使用相应的升尺度因子被升尺度至所述相应的相继特征图细化对(20b,30b,20c,30c)的尺度,并且所述经更新初始位移图的值与所述相应的升尺度因子相乘。


3.如权利要求1所述的方法,其特征在于,在所述位移生成操作中:
-所述特征图基础对(20e,30e)中的所述第一特征图的多个经移位特征图(82)是通过将多个不同移位应用于所述特征图基础对(20e,30e)中的所述第一特征图来生成的,并且
-所述初始位移图是通过基于研究所述特征图基础对(20e,30e)中的所述第一特征图的所述多个经移位特征图(82)与所述特征图基础对(20e,30e)中的所述第二特征图之间的匹配而生成针对所述特征图基础对(20e,30e)中的所述第二特征图的每个数据元素位置的结果移位来获得的,
和/或在所述位移细化操作中:
-所述特征图细化对(20b,30b,20c,30c,20d,30d)中的第一特征图的多个经移位特征图(82)是通过将多个不同移位应用于所述特征图细化对(20b,30b,20c,30c,20d,30d)中的所述第一特征图的所述经扭曲版本来生成的,
-所述校正位移图是通过基于研究所述特征图细化对(20b,30b,20c,30c,20d,30d)中的所述第一特征图的所述多个经移位特征图(82)与所述特征图细化对(20b,30b,20c,30c,20d,30d)中的第二特征图之间的匹配而生成针对所述特征图细化对(20b,30b,20c,30c,20d,30d)中的所述第二特征图的每个数据元素位置的结果移位来获得的。


4.如权利要求3所述的方法,其特征在于,在用于生成输出位移图以用作所述初始位移图的所述位移生成操作中和/或在用于生成所述输出位移图以用作所述校正位移图的所述位移细化操作中,
对所述多个经移位特征图(82)和用作参考特征图(80)的所述第二特征图的匹配是在以下步骤中执行的,其中所述多个经移位特征图(82)的移位数目是所述不同移位的数目:
-将第一比较卷积单元(84)应用于所述参考特征图(80)以获得第一中间比较数据图,
-将第二比较卷积单元(94)应用于所述多个经移位特征图(82)中的每一者以获得多个第二中间比较数据图,
-在加法操作中将根据所述不同移位的数目复制的所述第一中间比较数据图与所述多个第二中间比较数据图相加以获得结果比较数据图,
-生成针对所述结果比较数据图的每个数据元素在其至少一个空间维度和/或时间维度中的所有维度上的相应结果移位,并将所有相应结果移位指派给所述输出位移图中的对应数据元素。


5.如权利要求4所述的方法,其特征在于,针对所述结果比较数据图中的每个数据元素在其至少一个空间维度和/或时间维度中的所有维度上的相应结果移位是通过将移位研究卷积单元(104)应用于所述结果比较数据图来生成的。


6.如权利要求5所述的方法,其特征在于,所述特征图具有一个或多个特征通道,并且所述结果比较数据图在应用所述移位研究卷积单元(104)之前通过所述特征图的所述一个或多个特征通道进行堆叠。


7.如权利要求4所述的方法,其特征在于,针对所述结果比较数据图中的每个数据元素在其至少一个空间维度和/或时间维度中的所有维度上的相应结果移位是通过从所述多个不同移位中选择最佳匹配移位来生成的。


8.如权利要求4所述的方法,其特征在于,针对所述结果比较数据图中的每个数据元素在其至少一个空间维度和/或时间维度中的所有维度上的相应结果移位是通过以下操作来生成的:
-针对每个不同的移位值建立多个位移仓,
-针对每个位移仓生成位移概率,所述位移概率是基于所述结果比较数据图来计算的,以及
-通过按对应的位移概率对移位值进行加权来获得所述结果移位。


9.如权利要求4所述的方法,其特征在于,在生成针对所述结果比较数据图中的每个数据元素在其至少一个空间维度和/或时间维度中的所有维度上的相应结果移位之前,将非线性层应用于所述结果比较数据图。


10.如权利要求1所述的方法,其特征在于,所述特征图具有一个或多个特征通道,并且在所述位移生成操作中和/或在所述位移细化操作中,所述匹配是通过将所述特征图的所述一个或多个特征通道纳入考虑来执行的,并且初始位移图和校正位移图是分别使用与所述输入数据集的所述至少一个空间维度和/或时间维度的维数相比数目相同或较少的坐标通道来生成的。


11.如权利要求1所述的方法,其特征在于,在所述位移生成操作中生成一对的第一初始位移图和第二初始位移图,并且基于所述一对的所述第一初始位移图和所述第二初始位移图以及在所述位移细化操作中生成的一对的第一校正位移图和第二校正位移图,来在所述位移细化操作中生成一对的第一经更新位移图和第二经更新位移图。


12.如权利要求1所述的方法,其特征在于,所述输入数据集对是立体图像的图像对,所述位移图是视差图,所述位移生成操作是视差生成操作,并且所述位移细化操作是视差细化操作。


13.一种用于生成输入数据集对中的第一输入数据集和第二输入数据集的位移图的装置,每个输入数据集具有至少一个空间维度和/或时间维度,所述装置包括:
-基于神经网络的特征提取器(25),其适于处理所述第一输入数据集和所述第二输入数据集以生成特征图层级(50),所述特征图层级(50)包括特征图基础对(20e,30e)和特征图细化对(20b,30b,20c,30c,20d,30d),每一对特...

【专利技术属性】
技术研发人员:R·卡索达斯A·基斯贝内代克B·扎尔凯
申请(专利权)人:智动科技有限公司
类型:发明
国别省市:匈牙利;HU

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1