一种基于深度学习的VRAR双目3D目标定位方法技术

技术编号:38333577 阅读:12 留言:0更新日期:2023-08-02 09:14
本发明专利技术公开的一种基于深度学习的VRAR双目3D目标定位方法,先采集人眼跟踪兴趣点Pc变化的眼图视频,再分析眼睛稳定时的状态、分析眼睛跟踪兴趣点一次位置变化所需的时间。构建双目3D定位模型,包括基于瞳孔

【技术实现步骤摘要】
一种基于深度学习的VRAR双目3D目标定位方法


[0001]本专利技术涉及一种虚拟现实领域中的眼球对3D目标的跟踪能力的定位技术,具体来讲,是一种基于深度学习的方案,通过拍摄双眼眼球的图片,得到其聚焦的目标的3D位置的定位技术。
技术背景
[0002]在现有的眼球追踪
,目前主要的研究是基于单目的定位研究,其方法主要有眼动测量方法,从早期的直接观察法和主观感知法,慢慢发展为瞳孔

角膜反射向量法、眼电图法(EOG)、虹膜

巩膜边缘法、角膜反射法、双普金野象法、接触镜法等。
[0003]这些方法的主要方案是基于精确建模的架构,这些方案主要是通过精确测量,精确计算,达到一个所谓精确到像素级的准确率。但是这样的方案存在有2个问题:
[0004][1].现有的方案没有进行3D位置的定位的研究工作,这是因为现有的眼球跟踪技术用了精确的测量的方案,可以在2D平面上精确测量,但是由于无法获得聚眼等动作参数,来进行深度上的定位,而聚眼的等细节又和个人的眼睛大小、肌肉变化、动作习惯有关,是一个个性化的动作识别领域。
[0005][2].如果用户眼睛不是正常眼睛,或者用户不是正常用眼习惯,例如单目义眼、双目斜眼,就无法准确测量,即没有较好的鲁棒性。
[0006]而目前,虚拟现实技术的快速发展,对短距离的3D目标定位技术提出了要求,特别是在现有的PANCAKE方案的基础上的VRAR结构带来的短距离、轻负载的产品性能有着要求。

技术实现思路

[0007]本专利技术基于现有的图像处理、机器学习理论,在原有的瞳孔

角膜反射向量法的物理、算法结构基础上,使用双目,提出了一个可以实现3D定位、提高鲁棒性,实现个性化定制的算法,且不增加额外的方案成本。
[0008]该方案的主要内容包括有两个主要阶段:学习阶段、实用阶段。学习阶段包括有学习数据采集、学习数据分析和分割、数据集更新、模型训练等步骤。实用阶段包括有实用数据采集、实用模型分析、反馈更新等步骤。
[0009]具体的,本专利技术的一种基于深度学习的VRAR双目3D目标定位方法,包括如下步骤:
[0010]步骤1,构建数据集
[0011]在虚拟空间上部署位置不断变化的兴趣点Pc,用户眼睛跟踪注视位置不断变化的兴趣点Pc,眼图相机记录该过程中的眼图视频数据;
[0012]每次兴趣点Pc位置变化的时间间隔为TFreq1,对应的视频帧数为sf_TFreq1;
[0013]左右眼在时间段TFreq1内随兴趣点Pc变化的眼图视频分别记为Study_Lefteye_V(i,userid)、以及视频Study_Righteye_V(i,userid);其中i表示兴趣点Pc的第i个位置,userid是用户编号;兴趣点Pc(i)的位置表示为:Pc(i)=(xi,yi,zi);
[0014]步骤2,分析眼图视频Study_Lefteye_V(i,userid)、Study_Righteye_V(i,
userid)中数据变化后趋于稳定的图像,得到第userid个用户第i个跟踪视频中人眼开始稳定注视状态的眼图的帧编号isteady(framei,i);
[0015]在左右眼图视频中找到对应的稳定帧图像Study_Lefteye_V(isteady(framei,i),userid)、及Study_Righteye_V(isteady(framei,i),userid);
[0016]步骤3,分析出眼图视频Study_Lefteye_V(i,userid)、Study_Righteye_V(i,userid)中人眼动作变化强度最大的图像帧isummax_left(framei,i,userid)、isummax_right(framei,i,userid),该帧号对应的图像代表着第userid个用户在追踪第i个位置时人眼动作变化最大;
[0017]步骤4,只保留眼图视频Study_Lefteye_V(i,userid)和Study_Righteye_V(i,userid)中人眼动作变化强度最大帧与稳定帧图像间的眼图视频,用于模型训练;
[0018]步骤5,构建双目3D目标定位模型
[0019]所述模型包括基于瞳孔

角膜反射向量法的特征提取模型,3D定位模型和特征融合模块;
[0020]基于瞳孔

角膜反射向量法的特征提取模型用提取眼图视频中瞳孔中心和角膜反射中心坐标;
[0021]所述3D定位模型用于预测兴趣点位置P1_3D中的z坐标,以及输出高阶特征图到特征融合模块;
[0022]所述特征融合模块是基于时间序列的特征数据,把3D定位模型获得的高阶特征与基于瞳孔

角膜反射向量法提取的瞳孔中心和角膜反射中心特征,进行融合分析,预测兴趣点位置P1_3D中的x,y坐标;
[0023]步骤6,对双目3D目标定位模型进行训练
[0024]将步骤4中用于模型训练的眼图视频输入到基于瞳孔

角膜反射向量法的特征提取模型提取瞳孔中心和角膜反射中心数据;
[0025]将步骤4中用于模型训练的眼图视频输入到3D定位模型,预测兴趣点的z坐;
[0026]同时,提取左右眼2幅图的高阶特征图,进行拼接Concat成FF(2*m,(framei,i,userid)),与瞳孔中心和角膜反射中心数据一起输入到特征融合模块中,用于预测兴趣点的x,y标;其中,m是一幅图的高阶特征图的特征个数;
[0027]最终得到训练好的双目3D目标定位模型。
[0028]进一步的,还包括步骤7,采集用户眼图视频,寻找稳定帧图像及人眼动作变化强度最大帧,将稳定帧图像及人眼动作变化强度最大帧之间的眼图视频输入到训练好的双目3D目标定位模型中,输出定位。
[0029]进一步的,3D定位模型是VGG+TLE模型。
[0030]进一步的,步骤2和步骤3中,具体是采用光流法分析眼图视频中数据变化后趋于稳定的图像,以及人眼动作变化强度最大的图像。
[0031]进一步的,双目3D目标定位模型中的特征融合模块包括依次连接的输入层、双向LSTM网络层、剔除层DropOut、全连接层、x\y的连接层和softmax回归层。
[0032]进一步的,步骤1中所述眼图视频数据包括眼球的变化数据、眼球周围的肌肉变化数据等,其中眼球周围的肌肉变化包括上眼皮、眼袋等的变化数据,从而达到收集反映人眼对深度信息注视的变化信息。
[0033]进一步的,步骤2中采用光流法分析出眼图视频中数据变化后趋于稳定的图像,以及人眼动作变化强度最大的图像,具体包括如下步骤:
[0034]步骤2.1,求出左右眼图视频中从第2帧开始的每幅图的光流图;
[0035]步骤2.2,然后计算单幅光流图中的所有点的2个分量(u,v)之和sum,其中u和v是光流图中X轴本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的VRAR双目3D目标定位方法,其特征在于,包括如下步骤:步骤1,构建数据集在虚拟空间上部署位置不断变化的兴趣点Pc,用户眼睛跟踪注视位置不断变化的兴趣点Pc,眼图相机记录该过程中的眼图视频数据;每次兴趣点Pc位置变化的时间间隔为TFreq1,对应的视频帧数为sf_TFreq1;左右眼在时间段TFreq1内随兴趣点Pc变化的眼图视频分别记为Study_Lefteye_V(i,userid)、以及视频Study_Righteye_V(i,userid);其中i表示兴趣点Pc的第i个位置,userid是用户编号;兴趣点Pc(i)的位置表示为:Pc(i)=(xi,yi,zi);步骤2,分析眼图视频Study_Lefteye_V(i,userid)、Study_Righteye_V(i,userid)中数据变化后趋于稳定的图像,得到第userid个人的第i个跟踪视频中人眼开始稳定注视状态的眼图的帧编号isteady(framei,i);在左右眼图视频中找到对应的稳定帧图像Study_Lefteye_V(isteady(framei,i),userid)、及Study_Righteye_V(isteady(framei,i),userid);步骤3,分析出眼图视频Study_Lefteye_V(i,userid)、Study_Righteye_V(i,userid)中人眼动作变化强度最大的图像帧isummax_left(framei,i,userid)、isummax_right(framei,i,userid),该帧号对应的图像代表着第userid个用户在追踪第i个位置时人眼动作变化最大;步骤4,只保留眼图视频Study_Lefteye_V(i,userid)和Study_Righteye_V(i,userid)中人眼动作变化强度最大帧与稳定帧图像间的眼图视频,用于模型训练;步骤5,构建双目3D目标定位模型所述模型包括基于瞳孔

角膜反射向量法的特征提取模型,3D定位模型和特征融合模块;基于瞳孔

角膜反射向量法的特征提取模型用提取眼图视频中瞳孔中心和角膜反射中心坐标;所述3D定位模型用于预测兴趣点位置P1_3D中的z坐标,以及输出高阶特征图到特征融合模块;所述特征融合模块是基于时间序列的特征数据,把3D定位模型获得的高阶特征与基于瞳孔

角膜反射向量法提取的瞳孔中心和角膜反射中心特征,进行融合分析,预测兴趣点位置P1_3D中的x,y坐标;步骤6,对双目3D目标定位模型进行训练将步骤4中用于模型训练的眼图视频输入到基于瞳孔

角膜反射向量法的特征提取模型提取瞳孔中心和角膜反射中心数据;将步骤4中用于模型训练的眼图视频输入到3D定位模型,预测兴趣点的z坐标;同时,提取左右眼2幅图的高阶特征图,进行拼接Concat成F...

【专利技术属性】
技术研发人员:沈玉龙袁博陈森霖胡凯
申请(专利权)人:南京栢拓视觉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1