System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及图像处理领域,更具体地,涉及一种基于深度学习的眼动跟踪方法及装置。
技术介绍
1、视线追踪(也称为“眼动跟踪”)是人机交互的重要方式之一。传统的视线追踪技术常用瞳孔-角膜反射法,瞳孔-角膜反射法的基本原理是采用红外线照射眼睛,使用摄像头采集从角膜和视网膜上反射的光线,其中从视网膜上反射的光线方向标示了瞳孔的朝向,根据瞳孔与角膜反射之间的角度来确定眼动方向。但是,采用红外线照射眼睛在角膜上的反射光斑(也称为闪烁点,即普尔钦斑(purkinje image))易消失、眼睛快速运动时闪烁点会拖影或模糊,从而影响瞳孔成像,导致瞳孔定位困难。
2、与传统的视线追踪技术相比,基于深度学习的视线追踪算法能够降低瞳孔定位的难度并提高效率,但是,目前基于深度学习的视线追踪算法(参见专利文件:申请公布号cn113190117a)仍然是通过二值法预处理瞳孔区域图像,采用边缘提取算法提取瞳孔轮廓特征。因此,在非受限场景,例如,人眼区域在光照变化或遮挡的影响下,如虹膜色素沉着、眼妆、肤色、眼睑或睫毛等情况不具有鲁棒性,尤其是当眼睛快速运动时瞳孔定位精度降低,从而影响眼动跟踪的准确性。
技术实现思路
1、本申请实施例提供一种基于深度学习的眼动跟踪方法和装置,能够适增强在非受限场景的鲁棒性并且有效地提高瞳孔定位的精度和眼动跟踪的准确性。
2、第一方面,提供了基于深度学习的眼动跟踪方法,该方法包括:将眼部图像输入到分割模型获取该眼部图像的每个像素所属类别,其中该分割模型是基于卷积
3、结合第一方面,在一种可能的实现方式中,根据该眼部图像的每个像素所属类别确定n1个散斑图案,其中该至少两个不同的类别还包括第三类别,该第三类别为散斑;根据该n1个散斑图案定位n1个散斑中心;以及根据该瞳孔中心分别与该n1个散斑中心构成的n1个视线向量映射得到人眼注视点。
4、可选地,该至少两个不同类别还可以包括虹膜和/或巩膜。
5、结合第一方面,在一种可能的实现方式中,训练该分割模型使用的损失函数是由标准交叉熵损失、广义dice损失、边界感知损失和/或表面损失确定的,其中该广义dice损失用于度量该眼部图像的像素类别的第一地面真值与第一预测值之间的相似度,该边界感知损失用于度量不同类别区域的边界混淆度,以及该表面损失用于度量每个类别的区域边界的第二地面真值与第二预测值之间的差异。
6、可选地,该广义dice损失为骰子评分系数,其中该骰子评分系数测量该第一地面真值与该第一预测值之间的重叠率;该边界感知损失是通过根据对每个像素点到与其最近的两个区段的距离进行加权来确定的并且该区段表示在该分割模型的训练过程中得到的像素类别区域边界的分段;和/或该表面损失是根据每个类别的区域边界的第二地面真值与第二预测值的距离对每个像素的分类损失进行缩放。
7、可选地,该损失函数l为该广义dice损失lgdl、该边界感知损失lcel和该表面损失lsl的加权组合,例如,l=lcel(λ1+λ2lbal)+
8、λ3lgdl+λ4lsl,其中λ1、λ2、λ3、λ4表示权重因子。
9、结合第一方面,在第一方面的一种可能的实现方式中,该分割模型可以是基于该卷积神经网络对第二历史眼部图像集进行训练得到的,其中第二历史眼部图像集是基于域的数据预处理对该第一历史眼部图像集进行数据增广得到的。可选地,基于域的数据预处理包括下列方式之一或任意组合:伽马矫正、自适应直方图均衡、图像平移、图像扰动。
10、结合第一方面,在第一方面的一种可能的实现方式中,将该分割模型包括串联的m1个向下采样块和串联的m2个向上采样块,m1和m2均为正整数;其中,该m1个向下采样块中每个向下采样块包括一个或多个卷积层,每个向下采样块连接有池化层,并且在每个向下采样块输出的像素矩阵的尺寸小于在该向下采样块输入的像素矩阵的尺寸;以及该m2个向上采样块中每个向上采样块包括一个或多个卷积层,并且在每个向上采样块输出的像素矩阵的尺寸大于在该向上采样块输入的像素矩阵的尺寸。
11、可选地,每个向下采样块中的多个卷积层共享先前层和/或每个向上采样块的多个卷积层共享先前层。
12、可选地,各个向下采样块的输出通过跳跃连接作为各自相应的向上采样块输入的一部分。例如,m2=m1-1,将该m1个向下采样块中第i个向下采样块的输出作为该m1-1个向上采样块中第m1-i个向上采样块输入的一部分,i取值从1到m1-1。
13、可选地,在该m2个向下采样块中的最后一个向下采样块输出的像素矩阵的尺寸是在第一个向下采样块输入的像素矩阵的尺寸的1/16。
14、可选地,在每个向下采样块输出经归一化处理后的像素矩阵。
15、可选地,每个向上采样块采用插值法使得输出的像素矩阵的尺寸是输入的像素矩阵的尺寸的m倍,其中m为大于1的整数。例如,该插值法可以包括下列方式之一或任意组合:最近邻方法,双三次插值算法、双线性插值、反卷积和反池化。
16、可选地,所述池化层为平均池化层且池化运算的尺寸均为2×2。
17、可选地,各个卷积层采用的通道数相同,如通道数为32。
18、可选地,各个卷积层采用的激活函数为下列中的一种或任意组合:sigmoid激活函数、双曲正切tanh激活函数、线性修正单元relu激活函数和leaky relu激活函数。
19、第二方面,提供了基于深度学习的眼动跟踪装置,该装置包括处理单元和存储单元,该处理单元,用于将眼部图像输入到该存储单元存储的分割模型获取该眼部图像的每个像素所属类别,根据该眼部图像的每个像素所属类别确定该眼部图像的瞳孔轮廓,以及根据该瞳孔轮廓定位该瞳孔的中心;其中,该分割模型是基于卷积神经网络对第一历史眼部图像集进行训练得到的,该眼部图像的像素分类包括至少两个不同的类别,每个像素所属类别为该至少两个不同的类别中对应的类别,该至少两个不同的类别包括第一类别和第二类别,该第一类别为瞳孔和第二类别为背景。
20、结合第二方面,在第二方面的一种可能的实现方式中,该处理单元还用于:根据该眼部图像的每个像素所属类别确定n1个散斑图案,根据该n1个散斑图案定位n1个散斑中心,以及根据该瞳孔中心分别与该n1个散斑中心构成的n1个视线向量映射得到人眼注视点;其中该至少两个不同的类别还包括第三类别,该第三类别为散斑。
21、可选地,该至少两个不同类别还可以包括虹膜和/或巩膜。
22、结合第二方面,在第二方面的一种可能的实现方式中,训练该存储单元存储的分割模型使用的损失函数是由本文档来自技高网...
【技术保护点】
1.一种基于深度学习的眼动跟踪方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1或2所述的方法,其特征在于,其中训练所述分割模型使用的损失函数是由标准交叉熵损失、广义Dice损失、边界感知损失和/或表面损失确定的,其中所述广义Dice损失用于度量所述眼部图像的像素类别的第一地面真值与第一预测值之间的相似度,所述边界感知损失用于度量不同类别区域的边界混淆度,以及所述表面损失用于度量每个类别的区域边界的第二地面真值与第二预测值之间的差异。
4.根据权利要求3述的方法,其特征在于,其中:
5.根据权利要求3或4所述的方法,其特征在于,其中所述损失函数L为所述广义Dice损失LGDL、所述边界感知损失LCEL和所述表面损失LSL的加权组合;
6.根据权利要求1-5任一项所述的方法,其特征在于,所述分割模型是基于卷积神经网络对第一历史眼部图像集进行训练得到的,包括:
7.根据权利要求6所述的方法,其特征在于,所述基于域的数据预处理包括下列方式之一或任意组合:伽马矫正
8.根据权利要求1-7任一项所述的方法,其特征在于,所述分割模型包括串联的M1个向下采样块和串联的M2个向上采样块,M1和M2均为正整数;
9.根据权利要求8所述的方法,其特征在于,其中各个向下采样块的输出通过跳跃连接作为各自相应的向上采样块输入的一部分;
10.根据权利要求8或9所述的方法,其特征在于,其中
11.根据权利要求8-10任一项所述的方法,其特征在于,其中每个向上采样块采用插值法使得输出的像素矩阵的尺寸是输入的像素矩阵的尺寸的m倍,其中m为大于1的整数;
12.根据权利要求8-11任一项所述的方法,其特征在于,其中
13.根据权利要求8-12任一项所述的方法,其特征在于,各个卷积层采用的激活函数为下列中的一种或任意组合:sigmoid激活函数、双曲正切tanh激活函数、线性修正单元ReLU激活函数和Leaky ReLU激活函数。
14.根据权利要求1-13任一项所述的方法,其特征在于,所述至少两个不同类别还包括虹膜和/或巩膜。
15.一种基于深度学习的眼动跟踪装置,其特征在于,包括处理单元和存储单元,
16.根据权利要求15所述的装置,其特征在于,所述处理单元还用于:根据所述眼部图像的每个像素所属类别确定N1个散斑图案,根据所述N1个散斑图案定位N1个散斑中心,以及根据所述瞳孔中心分别与所述N1个散斑中心构成的N1个视线向量映射得到人眼注视点;其中所述至少两个不同的类别还包括第三类别,所述第三类别为散斑。
17.根据权利要求15或16所述的装置,其特征在于,其中训练所述存储单元存储的所述分割模型使用的损失函数是由标准交叉熵损失、广义Dice损失、边界感知损失和/或表面损失确定的,其中所述广义Dice损失用于度量所述眼部图像的像素类别的第一地面真值与第一预测值之间的相似度,所述边界感知损失用于度量不同类别区域的边界混淆度,以及所述表面损失用于度量每个类别的区域边界的第二地面真值与第二预测值之间的差异;
18.根据权利要求17所述的装置,其特征在于,其中,所述损失函数L为所述广义Dice损失LGDL、所述边界感知损失LCEL和所述表面损失LSL的加权组合;
19.根据权利要求15-18所述的装置,其特征在于,所述处理单元还用于基于所述卷积神经网络对第二历史眼部图像集进行训练得到所述分割模型,其中所述第二历史眼部图像集是基于域的数据预处理对所述第一历史眼部图像集进行数据增广得到的;
20.根据权利要求15-19任一项所述的装置,其特征在于,
21.根据权利要求15-20任一项所述的装置,其特征在于,其中
22.根据权利要求15-21任一项所述的装置,其特征在于,其中
23.根据权利要求15-22任一项所述的装置,其特征在于,其中
24.根据权利要求15-23任一项所述的装置,其特征在于,其中
25.一种基于深度学习的眼动跟踪装置,其特征在于,包括:处理器和存储器,所述处理器与所述存储器耦合,所述处理器用于读取并执行所述存储器中的指令,以实现根据权利要求1-14任一项所述的方法。
26.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被执行时,实现根据权利要求1-14任一项所述的方法。
...【技术特征摘要】
1.一种基于深度学习的眼动跟踪方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1或2所述的方法,其特征在于,其中训练所述分割模型使用的损失函数是由标准交叉熵损失、广义dice损失、边界感知损失和/或表面损失确定的,其中所述广义dice损失用于度量所述眼部图像的像素类别的第一地面真值与第一预测值之间的相似度,所述边界感知损失用于度量不同类别区域的边界混淆度,以及所述表面损失用于度量每个类别的区域边界的第二地面真值与第二预测值之间的差异。
4.根据权利要求3述的方法,其特征在于,其中:
5.根据权利要求3或4所述的方法,其特征在于,其中所述损失函数l为所述广义dice损失lgdl、所述边界感知损失lcel和所述表面损失lsl的加权组合;
6.根据权利要求1-5任一项所述的方法,其特征在于,所述分割模型是基于卷积神经网络对第一历史眼部图像集进行训练得到的,包括:
7.根据权利要求6所述的方法,其特征在于,所述基于域的数据预处理包括下列方式之一或任意组合:伽马矫正、自适应直方图均衡、图像平移、图像扰动。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述分割模型包括串联的m1个向下采样块和串联的m2个向上采样块,m1和m2均为正整数;
9.根据权利要求8所述的方法,其特征在于,其中各个向下采样块的输出通过跳跃连接作为各自相应的向上采样块输入的一部分;
10.根据权利要求8或9所述的方法,其特征在于,其中
11.根据权利要求8-10任一项所述的方法,其特征在于,其中每个向上采样块采用插值法使得输出的像素矩阵的尺寸是输入的像素矩阵的尺寸的m倍,其中m为大于1的整数;
12.根据权利要求8-11任一项所述的方法,其特征在于,其中
13.根据权利要求8-12任一项所述的方法,其特征在于,各个卷积层采用的激活函数为下列中的一种或任意组合:sigmoid激活函数、双曲正切tanh激活函数、线性修正单元relu激活函数和leaky relu激活函数。
14.根据权利要求1-13任一项所述的方法,其特征在于,所述至少两个不同类别还包括虹膜和/或巩膜。<...
【专利技术属性】
技术研发人员:韦美丽,翁芳,刘金胜,苑京立,
申请(专利权)人:嘉兴驭光光电科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。