【技术实现步骤摘要】
一种基于头部时序信号校正的眼动交互方法及装置
[0001]本专利技术涉及计算机视觉
,特别是涉及一种基于头部时序信号校正的眼动交互方法及装置。
技术介绍
[0002]眼动交互技术是通过眼部电信号,光信号,图片信号等多种方式对人的眼部注视方向状态进行跟踪,然后以此进行人机交互的方法,在未来的人机交互中具有巨大的应用潜力。可输入、输出的外部设备和相应的软件即键盘、鼠标、各种模式识别设备可以完成传统的人机交互,但传统的人机交互多为手动操作,有时会配合语音操作,其存在着一定的制约因素,比如对于上肢不方便的残疾人或者军事对战中的飞行员来说,传统的人机交互使用起来就十分不便。当在人机交互的过程中应用眼动技术时,就是将眼睛的运动情况作为一个输入设备。当用户眼部移动时,通过估算人眼视线在头戴式屏幕中的落点,实现人与计算机进行交互。作为一种更自然、更直接的输入方式,可以极大地提升人机交互的便捷度。
[0003]目前眼动交互方法主要是使用眼部视频的光学记录法,通过眼部相机获取双眼图像,然后使用眼部图像信息获取眼睛的注视方向或者屏幕 ...
【技术保护点】
【技术特征摘要】
1.一种基于头部时序信号校正的眼动交互方法,其特征在于,包括步骤:S1:采集连续多帧双眼图像以及对应的头部运动时序信息、实际屏幕注视点坐标为第一采集数据;采集大量不同人员在不同场景下的所述第一采集数据为第一采集数据组,对所述第一采集数据组中的数据进行预处理;S2:使用所述第一采集数据组训练深度卷积网络注视点预测模型,获得所述连续多帧双眼图像和所述头部运动时序信息到预估注视点坐标的映射关系;S3:将已有或实时采集的所述连续多帧双眼图像以及对应的头部运动时序信息进行所述预处理后,输入已完成训练的所述深度卷积网络注视点预测模型,获取所述连续多帧中最后一帧双眼图像所对应的预估注视点。2.根据权利要求1所述的基于头部时序信号校正的眼动交互方法,其特征在于,对所述第一采集数据进行预处理包括:通过头戴式设备的近眼摄像头采集佩戴所述头戴式设备的人员的所述连续多帧双眼图像数据,对所述连续多帧双眼图像数据进行预处理,获取每一帧双眼图像标准化向量数据;通过所述头戴式设备中的陀螺仪采集所述人员的所述头部运动时序信息数据,对所述人员的所述头部运动时序信息进行预处理,获取每一帧头部运动一维向量数据;所述实际屏幕注视点坐标为AR屏幕建立相对坐标系下的相对于屏幕左上角的相对坐标,取值范围为[0,1]。3.根据权利要求2所述的基于头部时序信号校正的眼动交互方法,其特征在于,所述深度卷积网络注视点预测模型包括:选择MobileNetV3网络模型为第一卷积神经网络,用于将所述每一帧双眼图像标准化向量数据输入所述第一卷积神经网络进行处理,获取双眼图像高维特征,将所述双眼图像高维特征进行拼接,得到一维双眼图像特征向量;选择GRU网络模型作为第二卷积神经网络,用于将连续n帧(n为自然数)的所述双眼图像高维特征输入所述第二卷积神经网络进行处理,获取二维双眼图像特征向量;选取两个全连接层与GRU网络模型组成第三卷积神经网络,用于将连续n帧所述头部运动时序信息输入所述第三卷积神经网络进行处理,获取二维头部运动特征向量;其中所述连续n帧头部运动时序信息对应于所述连续n帧双眼图像标准化向量数据;选取两个全连接层与GRU网络模型组成第四卷积神经网络,用于将所述所述二维双眼图像特征向量与所述二维头部运动特征向量输入所述第四卷积神经网络进行处理,获取所述连续n帧中最后一帧所对应的预估注视点。4.根据权利要求3所述的基于头部时序信号校正的眼动交互方法,其特征在于,使用所述第一采集数据组训练深度卷积网络注视点预测模型包括:S21:将所述第一采集数据组分为训练组和测试组;S22:使用所述训练组对所述深度卷积网络注视点预测模型进行训练,以对所述训练组中所有数据进行一次训练作为一轮,在每轮训练完成后,以每轮训练完成后的所述深度卷积网络注视点预测模型对测试组数据进行测试,计算损失函数值,使用Adam优化算法更新并保存此轮训练后的所述深度卷积网络注视点预测模型参数;S23:进行多轮训练,选择所述损失函数值最小的所述深度卷积网络注视点预测模型的参数,确定最终所述深度卷积网络注视点预测模型。
5.根据权利要求3所述的基于头部时序信号校正的眼动交互方法,其特征在于,所述连续n帧中,n为7。6.一种基于头部时序信...
【专利技术属性】
技术研发人员:张敬,王小东,闫野,印二威,谢良,闫慧炯,罗治国,艾勇保,张亚坤,
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。