基于Transformer的眼动事件检测方法技术

技术编号:35772869 阅读:24 留言:0更新日期:2022-12-01 14:15
本发明专利技术公开了一种基于Transformer的眼动事件检测方法,包括以下步骤:对原始视线位置时间序列进行预处理;采用CNN网络对输入序列进行特征提取以获得字向量;对视线位置序列进行位置编码来表征序列的位置信息;采用Transformer学习眼动序列的全局特征,并使用全连接和Softmax将输入序列任意时刻预测为注视、眼跳和眼跳后震荡三个基本事件类型;采用事件级Cohen

【技术实现步骤摘要】
基于Transformer的眼动事件检测方法


[0001]本专利技术属于眼动事件检测
,涉及一种基于Transformer的眼动事件检测方法。

技术介绍

[0002]眼动事件检测(Eye movement event detection)的目的是从眼动仪的原始观测视频中准确鲁棒地提取注视、眼跳、平稳追踪等眼睛运动事件。长期以来,有两类算法应用在此方向上,一类是基于速度的算法,一类是基于离散度的算法。Velocity

Threshold Identification(I

VT)由Bahill等人(1981)提出,其原理可以追溯到1960年代的Boyce算法,通过设定速度阈值,将高于阈值的归类为眼跳,低于阈值的归类为注视。Dispersion

Threshold Identification(I

DT)由Salvucci等人(2000)提出,其原理是用跨越连续样本点的移动窗口来检测潜在的注视,由于注视的低速特点会使其样本点倾向于紧密聚集,所以将窗口内低于离散度阈值的事件归类为注视。这两种方法依赖于手工设计的眼动特征(眼睛位置、速度、加速度等),且很难找到针对不同受试者的普适阈值,检测性能不仅受限于特征提取方法的准确性,而且难以处理多种眼动事件的同时提取。
[0003]近年来机器学习方法已被初步应用于基于视线位置的眼动事件检测,Pekkanen(2017)等人提出了一种朴素分段线性回归方法同时对视线位置时间序列进行去噪和分割,然后采用隐马尔可夫分类器将眼动事件分为四类(注视、眼跳、平稳追踪和眼跳后振荡)。Zemblys(2018)等人首先从原始视线位置时间序列提取了14种特征(不同特征利用的数据长度不同),然后使用随机森林分类器对每个采样点进行了多分类,最后基于规则对分类结果进行整合,实现眼动事件检测和分类。以上两种方法采用的仍然是手工设计特征,只不过在分类器设计上使用了机器学习方法。
[0004]随着深度学习方法的迅速发展,Hoppe和Bulling(2016)提出了一种基于卷积神经网络的端到端模型从连续的眼动序列中同时检测出不同的眼动事件,其模型性能优于I

VT和I

DT算法。Startsev等人(2018)提出了一个1D

CNN

BLSTM网络,在GazeCom数据集上进行了评估并与12个参考算法进行了比较,实验结果表明其性能优于其他算法。Zemblys等人(2019)进一步提出了基于深度学习的端到端的眼动事件检测方法(GazeNet),该方法首先使用两个一维卷积层提取原始视线位置时间序列的特征,然后采用三层双向长短时记忆网络(Long Short Term Memory network,LSTM)加一层全连接层对每个采样点进行分类。
[0005]目前基于深度学习的眼动事件检测方法普遍以LSTM及其变体为主干网络,而LSTM中当前时刻的观测仅强烈影响下一时刻的特征表示,在几个时间步长之后其影响就很快消失,因此LSTM不能有效地建立长序列上不同时刻观测之间的长期依赖关系;另外,LSTM是顺序模型,这意味着样本点是按顺序处理的,不能实现序列处理的高度并行化。

技术实现思路

[0006]本专利技术的目的是提供一种基于Transformer的眼动事件检测方法,解决了现有基
于LSTM的眼动事件检测深度方法中LSTM不能有效地建立长序列上不同时刻观测之间的长期依赖关系且不能实现序列处理的高度并行化对检测算法性能的限制。
[0007]本专利技术所采用的技术方案是:
[0008]基于Transformer的眼动事件检测方法,包括以下步骤:
[0009]步骤1、输入数据为公开眼动事件检测数据集,对原始视线位置序列数据进行预处理,得到差分视线位置序列;
[0010]步骤2、将差分视线位置序列送入CNN网络中进行特征提取,CNN网络的输出作为字向量Word Embedding;
[0011]步骤3、对视线位置序列进行位置编码Positional Encoding,以表征视线位置序列的前后位置信息;
[0012]步骤4、将字向量与位置编码相加之后得到f
t
送入Transformer的Encoder层,经过N层Encoder之后学习到涵盖序列全局的信息,最后经过线性全连接层和Softmax将眼动序列中每一时刻的样本点分类为注视、眼跳和眼跳后震荡,实现眼动事件检测;
[0013]步骤5、使用事件级Cohen

s Kappa来对分类后的三种眼动事件进行性能评估。
[0014]本专利技术的特点还在于:
[0015]步骤1预处理具体包括:
[0016]步骤1.1,对于输入的数据集剔除除注视、眼跳、眼跳后震荡之外的其它眼动事件;
[0017]步骤1.2,然后将以像素表示的视线位置(x,y)转换为以空间角度表示的视线位置(x
s
,y
s
);
[0018]步骤1.3,对输入的视线位置序列进行差分操作,用后一时刻的位置减去前一时刻的位置得到视线位置的差分序列来作为CNN网络的输入。
[0019]步骤1.2的计算公式如下:
[0020][0021][0022]其中,x是水平方向坐标,y是垂直方向坐标,p
w
是前景相机图像中显示器宽度方向的像素数,p
h
是前景相机图像中显示器高度方向的像素数,s
w
是屏幕宽度,s
h
是屏幕高度,d是眼睛相对屏幕的距离。
[0023]步骤1.3中视线位置序列表示为:[(x
s1
,y
s1
),(x
s2
,y
s2
),(x
s3
,y
s3
),

,(x
sm
,y
sm
),(x
s(m+1)
,y
s(m+1)
)]共m+1个样本点,差分后的序列表示:共m个样本点,其中差分计算公式为:
[0024][0025][0026]其中x
s(m+1)
和y
s(m+1)
表示原始视线位置序列第m+1时刻样本点的坐标值,x
sm
和y
sm
表示原始视线位置序列第m时刻样本点的坐标值,和表示差分后的序列第m时刻样本点的坐标值。
[0027]步骤2的CNN网络采用的卷积核大小为2
×
11,以用来从输入数据中提取时空局部特征,并通过卷积抽象成高维特征,输出的特征向量作为眼动序列的字向量。
[0028]步骤3的位置编码提供序列每个样本点的位置信息给Transformer,识别出序列中的顺序关系,使用sin和cos函数的线性变换来提供本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Transformer的眼动事件检测方法,其特征在于:包括以下步骤:步骤1、输入数据为公开眼动事件检测数据集,对原始视线位置序列数据进行预处理,得到差分视线位置序列;步骤2、将差分视线位置序列送入CNN网络中进行特征提取,CNN网络的输出作为字向量Word Embedding;步骤3、对视线位置序列进行位置编码Positional Encoding,以表征视线位置序列的前后位置信息;步骤4、将字向量与位置编码相加之后得到f
t
送入Transformer的Encoder层,经过N层Encoder之后学习到涵盖序列全局的信息,最后经过线性全连接层和Softmax将眼动序列中每一时刻的样本点分类为注视、眼跳和眼跳后震荡,实现眼动事件检测;步骤5、使用事件级Cohen

s Kappa来对分类后的三种眼动事件进行性能评估。2.根据权利要求1所述的基于Transformer的眼动事件检测方法,其特征在于:步骤1所述预处理具体包括:步骤1.1,对于输入的数据集剔除除注视、眼跳、眼跳后震荡之外的其它眼动事件;步骤1.2,然后将以像素表示的视线位置(x,y)转换为以空间角度表示的视线位置(x
s
,y
s
);步骤1.3,对输入的视线位置序列进行差分操作,用后一时刻的位置减去前一时刻的位置得到视线位置的差分序列来作为CNN网络的输入。3.根据权利要求2所述的基于Transformer的眼动事件检测方法,其特征在于:所述步骤1.2的计算公式如下:骤1.2的计算公式如下:其中,x是水平方向坐标,y是垂直方向坐标,p
w
是前景相机图像中显示器宽度方向的像素数,p
h
是前景相机图像中显示器高度方向的像素数,s
w
是屏幕宽度,s
h
是屏幕高度,d是眼睛相对屏幕的距离。4.根据权利要求2所述的基于Transformer的眼动事件检测方法,其特征在于:所述步骤1.3中视线位置序列表示为:[(x
s1
,y
s1
),(x
s2
,y
s2
),(x
s3
,y
s3
),

,(x
sm
,y
sm
),(x
s(m+1)
,y
s(m+1)
)]共m+1个样本点,差分后的序列表示:共m个样本点,其中差分计算公式为:
...

【专利技术属性】
技术研发人员:郑洋梁一唯梁继民郭开泰胡海虹任胜寒王梓宇
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1