一种基于移动摄像机和神经网络的运动矢量预测方法技术

技术编号:24889899 阅读:33 留言:0更新日期:2020-07-14 18:16
本发明专利技术公开了一种基于移动摄像机和神经网络的运动矢量预测方法,属于图像处理和人工智能领域,包括:光流图图像数据和相机运动参数标签准备;利用ResNet50构建网络,并在其后添加六个全连接层,分别用于六个参数预测;通过采取对参数进行分类后回归的方式求得均方误差,与交叉熵损失按照一定的权重加权求和,计算损失;利用反向传播算法不断更新网络参数完成网络训练;利用训练完毕的网络得到移动相机的运动参数并求解背景运动,剔除场景中背景运动信息,得到运动物体的真实光流。此模型训练采用数据集为真实场景中的数据制作,网络采用分类后回归的方式提高了学习速率和精度,具有很好的普适性和广阔的应用前景。

【技术实现步骤摘要】
一种基于移动摄像机和神经网络的运动矢量预测方法
本专利技术属于图像处理和人工智能领域,涉及深度学习方法。
技术介绍
人们看到的场景是真实立体场景在视网膜上呈现出的二维图像。运动场景在视网膜上将会产生光流,人类从光流中来感知物体的运动。发育心理学告诉我们,婴儿在发育早期首先发展出运动感知能力,能感知到运动物体,随后才发展出对物体的识别能力。由于在观察运动场景时人的头部和身体自身一般也在运动,导致物体运动引起的光流和人自身运动引起的光流混合在一起,需要从混合光流中将人自身运动和物体的运动区分开来,才能感知运动物体。人大脑中的前庭装置可以感知人自身运动,所以可以有效地从混合光流中去除人自身运动引起的全局光流,从剩下的物体运动光流中提取出运动物体,进而发展出物体识别功能。受此启发,本专利研究如何从运动场景的光流中去除相机运动引起的全局光流,从而提取出运动物体,为进一步学习无监督特征来进行物体识别打下基础。相机运动引起的全局光流有一定的模式,比如相机拉近、旋转等运动所生成的全局光流。为了模拟前庭装置的功能,本专利设计了一个卷积神经网络,从场景的光流中根据其全局光流模式来预测相机自身的运动,然后就可以求出对应的全局光流,通过剔除全局运动背景光流从而提取出运动物体。
技术实现思路
启发于婴儿观察运动的方式,通过观察发现人类观察运动的呈现方式和光流相似,利用移动的相机代替人类自身运动的方式,采用光流的方法模拟人类感知运动。由于深度学习具有非常强大的拟合能力,为了能更好的模拟人脑感知运动信息的机制,使用卷积神经网络来预测场景中相机的运动参数,并利用参数信息进行场景中动态背景的运动矢量提取以及剔除背景的运动信息之后物体的运动矢量提取。本专利技术的采用的技术方案为一种基于移动摄像机和神经网络的运动矢量预测方法,该方法的实现过程如下:具体技术方案如下:第一步,数据集制作;第二步,网络构建;第三步,损失函数设计;第四步,网络训练,将第一步中的数据集输入到第二步构建的网络中,通过第三步设计的损失函数计算网络损失,然后再进行反向传播,对神经网络进行网络参数的优化,得到优化之后的模型;第五步,运动矢量提取,使用第四步获取的网络模型进行相机运动参数预测,得到相机运动参数,然后运用相机运动参数对图像进行投影变换得到相机运动引起的全局运动光流,通过从整体光流中剔除全局运动光流提取出运动物体的运动矢量即最终输出结果。如图1所示为算法具体流程图。所述方法包括以下步骤:步骤1,数据集制作,包括光流图图像数据和相机运动参数标签数据;所述光流图图像数据的制作具体为:原图像,对应的深度信息,以及拍摄该图像的相机内参数;对原图像进行任意的旋转平移操作,得到新的图像,其中旋转平移参数为表示空间坐标系中绕三个坐标轴进行旋转平移的参数,取值范围在[-A,A]范围内作为连续数值标签,将真实参数对应到[0,2A]共2A+1个位置作为离散数值标签,如-A对应离散数值标签0;根据像素点在原图像和新图像上的位移变化量得到光流图像;所述相机运动参数数据即为旋转平移参数,参数值表示包括连续数值标签和离散数值标签。步骤2,网络构建,构建的网络是用于根据输入的光流图图像数据预测相机的运动参数。网络结构采用ResNet50残差网络进行特征提取,并在网络最后添加六个并列的全连接层,每个全连接层对应一个旋转平移参数。其中,每个全连接层的维度数量设置为2A+1,每一个全连接层用于对提取到的特征进行预测,得到旋转平移参数在每个维度上的预测值。步骤3,网络损失函数设计,具体内容如下:Loss=Cls(y,y′)+α·MSE(y,y′)(1)Loss表示网络整体的交叉熵损失函数,Cls(y,y′)表示交叉熵损失函数,MSE(y,y′)表示均方误差损失函数,α是用来调节均方误差损失的影响权重的超参数;交叉熵损失函数的公式如下所示:其中,Cls(y,y′)表示交叉熵损失函数,T表示样本数量也就是全连接层的维度数量2A+1,y′j表示全连接层第j个维度上的离散数值标签,Sj代表在全连接层进行softmax分类得到第j个维度的概率值,取值范围在(0,1)。均方误差损失函数的公式如下所示:其中,MSE(y,y′)表示均方误差,yi是全连接层第i个维度的真实值也就是连续数值标签,y′i是全连接层第i个维度的预测值。步骤4,网络训练部分,具体内容如下:将光流图图像训练数据和相机运动参数标签数据输入网络,对基础网络进行全连接之后,每一个全连接层一方面对预测数值和离散数值标签进行交叉熵损失计算。另一方面,对全连接层结果进行softmax,将全连接层中学习的预测数值映射成(0,1)之间的概率值,每个概率值乘以对应离散数值标签并求和得到参数的期望值,映射到[0,2A]区间范围内,然后减去A,最终映射到[-A,A]区间范围内,最终取得的预测值和连续数值标签进行MSE均方误差损失计算。均方误差与前面的交叉熵损失按照一定的权重加权求和,对最终的损失梯度进行反向传播,保存最后的网络模型。步骤5,运动矢量提取部分,具体内容如下:采用真实场景中的数据(包括相机的运动和物体的运动)作为测试,利用网络模型进行特征提取,获得相机运动参数;运用相机运动参数求解场景中由于相机运动导致的全局运动;根据场景中整体运动光流和提取的全局运动光流进行相减操作,并设定合适的阈值,目的是为了将运动矢量距离和角度低于阈值的部分被剔除,只留下大于阈值部分的运动光流,也就是运动物体的运动矢量信息。如图2所示为运动物体提取方法图。有益效果:数据集的真实性以及各个角度和位移的自由转换让学习结果有很好的普适性,网络采用在分类的情况下进行参数精细回归的方式提高了学习速率和学习精度。附图说明图1本专利技术方法流程图图2本专利技术所述运动物体提取方法图图2(a)视频帧序列图2(b)整体光流图图2(c)背景光流图图2(d)目标光流图图3本专利技术所述损失函数的网络学习框架图图4本专利技术所述运动物体提取结果图图4(a)t时刻图像图4(b)t+1时刻图像图4(c)运动物体光流图具体实施方式本专利技术使用到的实验环境资源如下所述,采用CPU为E5-2630,GPU为TeslaK80的设备用于卷积神经网络的加速训练,使用操作系统为Ubuntu16.04、CUDA版本CUDA8.0、Python版本2.7、Pytorch版本Pytorch0.4.1等。具体实验步骤细节如下:步骤一,制作训练数据集;读取KITTI自动驾驶数据集视频序列,并制作仅包含相机运动导致的背景运动场景,随机产生的参数范围中,相机平移参数T在[-20,20]dm范围,旋转参数R在[-20,20]度之间。每个图像随机转换生成成20个图像对,生成数据集的光流图片共53040张。方本文档来自技高网...

【技术保护点】
1.一种基于移动摄像机和神经网络的运动矢量预测方法,其特征在于包括以下步骤:/n步骤1,数据集制作,包括光流图图像数据制作和相机运动参数数据制作;/n步骤2,网络构建,用于根据输入的光流图图像数据预测相机的运动参数,网络结构采用ResNet50残差网络进行特征提取,并在网络最后添加六个并列的全连接层,每个全连接层单独进行参数预测,其中,每个全连接层的维度数量设置为2A+1,每一个全连接层用于对提取到的特征进行预测,得到旋转平移参数在每个维度上的预测值;/n步骤3,损失函数设计;/n步骤4,网络训练,将步骤1中的数据集输入到步骤2构建的网络中,通过步骤3损失函数计算网络损失,然后再进行反向传播,对神经网络进行网络参数的优化,得到优化之后的模型;/n步骤5,运动矢量提取,利用步骤4中的训练模型进行相机运动参数预测,得到相机运动参数,然后运用相机运动参数对图像进行投影变换得到相机运动引起的全局运动光流,通过从整体光流中剔除全局运动光流提取出运动物体的运动矢量即最终输出结果。/n

【技术特征摘要】
1.一种基于移动摄像机和神经网络的运动矢量预测方法,其特征在于包括以下步骤:
步骤1,数据集制作,包括光流图图像数据制作和相机运动参数数据制作;
步骤2,网络构建,用于根据输入的光流图图像数据预测相机的运动参数,网络结构采用ResNet50残差网络进行特征提取,并在网络最后添加六个并列的全连接层,每个全连接层单独进行参数预测,其中,每个全连接层的维度数量设置为2A+1,每一个全连接层用于对提取到的特征进行预测,得到旋转平移参数在每个维度上的预测值;
步骤3,损失函数设计;
步骤4,网络训练,将步骤1中的数据集输入到步骤2构建的网络中,通过步骤3损失函数计算网络损失,然后再进行反向传播,对神经网络进行网络参数的优化,得到优化之后的模型;
步骤5,运动矢量提取,利用步骤4中的训练模型进行相机运动参数预测,得到相机运动参数,然后运用相机运动参数对图像进行投影变换得到相机运动引起的全局运动光流,通过从整体光流中剔除全局运动光流提取出运动物体的运动矢量即最终输出结果。


2.根据权利要求1所述的一种基于移动摄像机和神经网络的运动矢量预测方法,其特征在于:
步骤1中所述光流图图像数据的制作需要原图像,原图像对应的深度信息,以及拍摄该图像的相机内参数,制作具体为:对原图像进行任意的旋转平移操作,得到新的图像,其中旋转平移参数为表示空间坐标系中绕三个坐标轴进行旋转平移的参数,取值范围在[-A,A]范围内作为连续数值标签,将真实参数对应到[0,2A]共2A+1个位置作为离散数值标签,如-A对应离散数值标签0;根据像素点在原图像和新图像上的位移变化量得到光流图像;
所述相机运动参数数据即为旋转平移参数,参数值表示包括连续数值标签和离散数值标签。


3...

【专利技术属性】
技术研发人员:刘波薛园园
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1