基于多分类回归模型与自注意力机制的单目图像估计方法技术

技术编号:29587092 阅读:25 留言:0更新日期:2021-08-06 19:46
本发明专利技术公开了基于多分类回归模型与自注意力机制的单目图像估计方法,包括首先输入图像通过图像编码器进行替换卷积单元块中卷积,使用空洞卷积来替代;经过图像编码器编码后,根据自注意力模型获取像素级的上下文信息,首先将输入的特征图通过一个单层神经网络和ReLU函数,然后通过对输入的特征图进行全局平均池化,获取图像全局的上下文信息;进入场景深度软推断,将输入图像像素分入深度类,对深度值进行有序回归;通过使用概率图提供的数据获得精确平滑的深度值,得到位置上像素的深度推断值。本发明专利技术通过利用有序分类逻辑回归模型与自注意力机制,和深度神经网路进行单目图像场景的深度设计,减少了反复使用同样的空洞卷积核造成的格网效应。

【技术实现步骤摘要】
基于多分类回归模型与自注意力机制的单目图像估计方法
本专利技术涉及视觉定位
,具体来说,涉及基于多分类回归模型与自注意力机制的单目图像估计方法。
技术介绍
随着科学技术的高速发展,可以获取到的图像空间分辨率越来越高,质量越来越好,然而通过普通的光学相机获取到的影像在某些领域的应用仍有很大局限,如2019年发布的某款搭载有人脸识别功能的智能手机,其仅通过单颗前置光学摄像头进行匹配与识别,导致利用一张事先准备好的机主照片即可成功解锁手机的漏洞。这是因为单目图像将三维信息降至二维图像信息时,缺少了场景的深度信息,相机无法分辨这是三维的真人还是二维的人像。深度信息在许多应用场景都有着重要作用,比如曾引发巨大热潮的虚拟现实(VirtualReality,VR)与增强现实(AugmentedReality,AR)。VR与AR的一个关键环节就是三维场景的重建,这其中必然需要深度信息的参与。精确的深度信息让VR能够“以假乱真”,使AR生成的物体能完美地融入真实世界中。此外,若要实现完全沉浸式的体验,则需要摆脱操作手柄等,要使人与VR/AR的物体直本文档来自技高网...

【技术保护点】
1.基于多分类回归模型与自注意力机制的单目图像估计方法,其特征在于,包括以下步骤:/nS1: 首先输入图像通过图像编码器进行替换最后两个卷积单元块中的3x3卷积,将第三个卷积单元块的3x3卷积,使用稀疏率依次为1,2,3的3x3空洞卷积来替代,三块定为一组,共定8组,第四个卷积单元块将3x3卷积替换为稀疏率依次为1,2,5的3x3空洞卷积;/nS2: 经过图像编码器编码后,根据自注意力模型获取像素级的上下文信息,获得查询要素Q和键要素K,首先将输入的特征图通过一个单层神经网络和ReLU函数,然后通过对输入的特征图进行全局平均池化获取图像全局的上下文信息;/nS3: 输入图像经过编码器与获取上下...

【技术特征摘要】
1.基于多分类回归模型与自注意力机制的单目图像估计方法,其特征在于,包括以下步骤:
S1:首先输入图像通过图像编码器进行替换最后两个卷积单元块中的3x3卷积,将第三个卷积单元块的3x3卷积,使用稀疏率依次为1,2,3的3x3空洞卷积来替代,三块定为一组,共定8组,第四个卷积单元块将3x3卷积替换为稀疏率依次为1,2,5的3x3空洞卷积;
S2:经过图像编码器编码后,根据自注意力模型获取像素级的上下文信息,获得查询要素Q和键要素K,首先将输入的特征图通过一个单层神经网络和ReLU函数,然后通过对输入的特征图进行全局平均池化获取图像全局的上下文信息;
S3:输入图像经过编码器与获取上下文信息后,进入场景深度软推断,使用多项逻辑分类将输入图像像素分入深度类,然后使用常用的softmax函数作为损失函数,对深度值进行有序回归;
S4:得到输入图像上每个深度类的概率图后,在深度推断时,通过使用概率图提供的概率数据综合多个深度类的深度值来获得精确平滑的深度值,然后通过概率最大的相邻两个类的深度来推断位置上的深度,得到位置上像素的深度推断值。


2.根据权利要求1所述的基于多分类回归模型...

【专利技术属性】
技术研发人员:李阳赵明乐
申请(专利权)人:北京数研科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1