生成图像或音频数据的输入数据集对的位移图制造技术

技术编号：27040633 阅读：19 留言：0更新日期：2021-01-12 11:24

本发明专利技术是一种用于生成输入数据集对中的第一输入数据集和第二输入数据集的位移图的方法和装置。该装置包括：基于神经网络的特征提取器(25)，其用于处理第一输入数据集和第二输入数据集以生成特征图层级(50)，该特征图层级(50)包括特征图基础对(20e，30e)和特征图细化对(20b，30b，20c，30c，20d，30d)；包括第一比较器单元的位移单元，其用于使用特征图基础对(20e，30e)来获得初始位移图；以及位移细化单元，其用于获得特征图细化对(20d，30d)的经更新位移图。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】生成图像或音频数据的输入数据集对的位移图
本专利技术涉及一种用于生成输入数据集对中的第一输入数据集和第二输入数据集的位移图(例如，立体图像对中的左/第一图像和右/第二图像的视差图)的方法和装置。
技术介绍
从立体图像精确地估计深度(换言之，从立体图像生成视差图)是许多计算机视觉应用(诸如自主(自动驾驶)车辆、机器人视觉、增强现实)的核心问题。更一般而言，对两个(相关)图像之间的位移的研究是当今广泛应用的工具。相应地，若干种不同的办法可用于基于立体图像来生成视差图。在US5,727,078、US2008/0267494A1、US2011/0176722A1、US2012/0008857A1、US2014/0147031A1和US9,030,530B2中公开的办法中，根据从场景记录的立体图像生成低分辨率图像。对这些低分辨率图像执行视差分析，通过该分析获得的视差图被放大，或者其精度通过逐渐应用的放大而提高。针对WO00/27131A1和WO2016/007261A1中的每个立体图像生成具有分辨率越来越低的图像的单独分层系列。在这些办法中，视差图是基于最粗糙级别的左图像和右图像生成的。在这些文档中，应用对低分辨率视差图的升尺度(upscaling)。在CN105956597A中借助于神经网络来处理立体图像以获得视差图。在以下论文(其中若干论文在康奈尔大学图书馆的arXiv开放访问数据库中可作为预印件获得)中，神经网络被用于生成特征图、以及例如立体图像的视差或其他类型输出：·A.Kend...

【技术保护点】
1.一种用于生成输入数据集对中的第一输入数据集和第二输入数据集的位移图的方法，每个输入数据集具有至少一个空间维度和/或时间维度，所述方法包括以下步骤：/n-藉由基于神经网络的特征提取器(25)来处理所述第一输入数据集和所述第二输入数据集以生成特征图层级(50)，所述特征图层级(50)包括特征图基础对(20e，30e)和特征图细化对(20b，30b，20c，30c，20d，30d)，每一对特征图(20b，30b，20c，30c，20d，30d，20e，30e)构成所述特征图层级(50)的一个级别，所述特征图细化对(20b，30b，20c，30c，20d，30d)在其至少一个空间维度和/或时间维度中的所有维度上的分辨率不如所述特征图基础对(20e，30e)的分辨率粗糙；/n-基于将所述特征图基础对(20e，30e)中的第一特征图与所述特征图基础对(20e，30e)中的第二特征图进行匹配，来在位移生成操作中生成针对所述特征图层级(50)中的所述特征图基础对(20e，30e)的初始位移图；/n-在位移细化操作中：/n-使用相应的升尺度因子将所述初始位移图在其至少一个空间维度和/或时间维度中的所...

【技术特征摘要】
【国外来华专利技术】20180530 US 15/992,9301.一种用于生成输入数据集对中的第一输入数据集和第二输入数据集的位移图的方法，每个输入数据集具有至少一个空间维度和/或时间维度，所述方法包括以下步骤：
-藉由基于神经网络的特征提取器(25)来处理所述第一输入数据集和所述第二输入数据集以生成特征图层级(50)，所述特征图层级(50)包括特征图基础对(20e，30e)和特征图细化对(20b，30b，20c，30c，20d，30d)，每一对特征图(20b，30b，20c，30c，20d，30d，20e，30e)构成所述特征图层级(50)的一个级别，所述特征图细化对(20b，30b，20c，30c，20d，30d)在其至少一个空间维度和/或时间维度中的所有维度上的分辨率不如所述特征图基础对(20e，30e)的分辨率粗糙；
-基于将所述特征图基础对(20e，30e)中的第一特征图与所述特征图基础对(20e，30e)中的第二特征图进行匹配，来在位移生成操作中生成针对所述特征图层级(50)中的所述特征图基础对(20e，30e)的初始位移图；
-在位移细化操作中：
-使用相应的升尺度因子将所述初始位移图在其至少一个空间维度和/或时间维度中的所有维度上升尺度至所述特征图层级(50)中的所述特征图细化对(20b，30b，20c，30c，20d，30d)的尺度，并将所述初始位移图的值与所述相应的升尺度因子相乘以生成经升尺度的初始位移图，
-通过将所述经升尺度的初始位移图用于所述特征图层级(50)中的所述特征图细化对(20b，30b，20c，30c，20d，30d)中的第一特征图上来执行扭曲操作，生成所述特征图细化对(20b，30b，20c，30c，20d，30d)中的所述第一特征图的经扭曲版本，
-将所述特征图细化对(20b，30b，20c，30c，20d，30d)中的所述第一特征图的所述经扭曲版本与所述特征图细化对(20b，30b，20c，30c，20d，30d)中的所述第二特征图进行匹配，以获得针对所述特征图细化对(20b，30b，20c，30c，20d，30d)中的所述第一特征图的所述经扭曲版本和所述特征图细化对(20b，30b，20c，30c，20d，30d)中的所述第二特征图的校正位移图，所述校正位移图被加到所述经升尺度的初始位移图以获得经更新位移图。

2.如权利要求1所述的方法，其特征在于：
-至少两个特征图细化对(20b，30b，20c，30c，20d，30d)被包括在所述特征图层级(50)中，其中，最接近所述特征图层级(50)中的所述特征图基础对(20e，30e)的第一特征图细化对(20d，30d)的分辨率不如所述特征图基础对(20e，30e)的分辨率粗糙，并且与所述第一特征图细化对(20d，30d)相比较不接近所述特征图层级(50)中的所述特征图基础对(20e，30e)的每个相继特征图细化对(20b，30b，20c，30c)的分辨率不如与相应的相继特征图细化对(20b，30b，20c，30c)相比较接近所述特征图层级(50)中的所述特征图基础对(20e，30e)的相邻特征图细化对(20d，30d)的分辨率粗糙，
-所述位移细化操作是使用所述第一特征图细化对(20d，30d)来执行的，并且相应的进一步位移细化操作是针对每个相继特征图细化对(20b，30b，20c，30c)来执行的，其中，在每个进一步位移细化操作中，针对与相应的相继特征图细化对(20b，30b，20c，30c)相比较接近所述特征图层级(50)中的所述特征图基础对(20e，30e)的所述相邻特征图细化对(20d，30d)获得的经更新位移图被用作所述初始位移图，所述初始位移图在相应的位移细化操作中在升尺度期间使用相应的升尺度因子被升尺度至所述相应的相继特征图细化对(20b，30b，20c，30c)的尺度，并且所述经更新初始位移图的值与所述相应的升尺度因子相乘。

3.如权利要求1所述的方法，其特征在于，在所述位移生成操作中：
-所述特征图基础对(20e，30e)中的所述第一特征图的多个经移位特征图(82)是通过将多个不同移位应用于所述特征图基础对(20e，30e)中的所述第一特征图来生成的，并且
-所述初始位移图是通过基于研究所述特征图基础对(20e，30e)中的所述第一特征图的所述多个经移位特征图(82)与所述特征图基础对(20e，30e)中的所述第二特征图之间的匹配而生成针对所述特征图基础对(20e，30e)中的所述第二特征图的每个数据元素位置的结果移位来获得的，
和/或在所述位移细化操作中：
-所述特征图细化对(20b，30b，20c，30c，20d，30d)中的第一特征图的多个经移位特征图(82)是通过将多个不同移位应用于所述特征图细化对(20b，30b，20c，30c，20d，30d)中的所述第一特征图的所述经扭曲版本来生成的，
-所述校正位移图是通过基于研究所述特征图细化对(20b，30b，20c，30c，20d，30d)中的所述第一特征图的所述多个经移位特征图(82)与所述特征图细化对(20b，30b，20c，30c，20d，30d)中的第二特征图之间的匹配而生成针对所述特征图细化对(20b，30b，20c，30c，20d，30d)中的所述第二特征图的每个数据元素位置的结果移位来获得的。

4.如权利要求3所述的方法，其特征在于，在用于生成输出位移图以用作所述初始位移图的所述位移生成操作中和/或在用于生成所述输出位移图以用作所述校正位移图的所述位移细化操作中，
对所述多个经移位特征图(82)和用作参考特征图(80)的所述第二特征图的匹配是在以下步骤中执行的，其中所述多个经移位特征图(82)的移位数目是所述不同移位的数目：
-将第一比较卷积单元(84)应用于所述参考特征图(80)以获得第一中间比较数据图，
-将第二比较卷积单元(94)应用于所述多个经移位特征图(82)中的每一者以获得多个第二中间比较数据图，
-在加法操作中将根据所述不同移位的数目复制的所述第一中间比较数据图与所述多个第二中间比较数据图相加以获得结果比较数据图，
-生成针对所述结果比较数据图的每个数据元素在其至少一个空间维度和/或时间维度中的所有维度上的相应结果移位，并将所有相应结果移位指派给所述输出位移图中的对应数据元素。

5.如权利要求4所述的方法，其特征在于，针对所述结果比较数据图中的每个数据元素在其至少一个空间维度和/或时间维度中的所有维度上的相应结果移位是通过将移位研究卷积单元(104)应用于所述结果比较数据图来生成的。

6.如权利要求5所述的方法，其特征在于，所述特征图具有一个或多个特征通道，并且所述结果比较数据图在应用所述移位研究卷积单元(104)之前通过所述特征图的所述一个或多个特征通道进行堆叠。

7.如权利要求4所述的方法，其特征在于，针对所述结果比较数据图中的每个数据元素在其至少一个空间维度和/或时间维度中的所有维度上的相应结果移位是通过从所述多个不同移位中选择最佳匹配移位来生成的。

8.如权利要求4所述的方法，其特征在于，针对所述结果比较数据图中的每个数据元素在其至少一个空间维度和/或时间维度中的所有维度上的相应结果移位是通过以下操作来生成的：
-针对每个不同的移位值建立多个位移仓，
-针对每个位移仓生成位移概率，所述位移概率是基于所述结果比较数据图来计算的，以及
-通过按对应的位移概率对移位值进行加权来获得所述结果移位。

9.如权利要求4所述的方法，其特征在于，在生成针对所述结果比较数据图中的每个数据元素在其至少一个空间维度和/或时间维度中的所有维度上的相应结果移位之前，将非线性层应用于所述结果比较数据图。

10.如权利要求1所述的方法，其特征在于，所述特征图具有一个或多个特征通道，并且在所述位移生成操作中和/或在所述位移细化操作中，所述匹配是通过将所述特征图的所述一个或多个特征通道纳入考虑来执行的，并且初始位移图和校正位移图是分别使用与所述输入数据集的所述至少一个空间维度和/或时间维度的维数相比数目相同或较少的坐标通道来生成的。

11.如权利要求1所述的方法，其特征在于，在所述位移生成操作中生成一对的第一初始位移图和第二初始位移图，并且基于所述一对的所述第一初始位移图和所述第二初始位移图以及在所述位移细化操作中生成的一对的第一校正位移图和第二校正位移图，来在所述位移细化操作中生成一对的第一经更新位移图和第二经更新位移图。

12.如权利要求1所述的方法，其特征在于，所述输入数据集对是立体图像的图像对，所述位移图是视差图，所述位移生成操作是视差生成操作，并且所述位移细化操作是视差细化操作。

13.一种用于生成输入数据集对中的第一输入数据集和第二输入数据集的位移图的装置，每个输入数据集具有至少一个空间维度和/或时间维度，所述装置包括：
-基于神经网络的特征提取器(25)，其适于处理所述第一输入数据集和所述第二输入数据集以生成特征图层级(50)，所述特征图层级(50)包括特征图基础对(20e，30e)和特征图细化对(20b，30b，20c，30c，20d，30d)，每一对特...

【专利技术属性】
技术研发人员：R·卡索达斯，A·基斯贝内代克，B·扎尔凯，
申请(专利权)人：智动科技有限公司，
类型：发明
国别省市：匈牙利;HU

全部详细技术资料下载我是这个专利的主人